Aller au contenu principal

Dossier arXiv cs.RO — page 8

1981 articles · page 8 sur 40

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

ProteusVPR : reconnaissance visuelle de lieux multi-scènes pour la perception maritime et l'inspection de cabines
351arXiv cs.RO RecherchePaper

ProteusVPR : reconnaissance visuelle de lieux multi-scènes pour la perception maritime et l'inspection de cabines

Des chercheurs ont déposé le 24 juin 2026 sur arXiv (2606.24234) ProteusVPR, un système de reconnaissance visuelle de lieu (VPR, Visual Place Recognition) conçu pour les robots d'inspection en milieu maritime. Le problème de fond : à bord d'un navire, un robot doit naviguer entre deux environnements visuellement antagonistes, les ponts extérieurs aux textures rares et aux variations d'éclairage sévères, et les cabines intérieures aux structures répétitives générant de fortes ambiguïtés. ProteusVPR répond avec une architecture à deux étapes : une première phase de récupération d'images via n'importe quel backbone VPR standard, suivie d'un réseau d'estimation géométrico-visuelle qui fusionne l'image récupérée avec deux trames temporellement précédentes, intégrant des descripteurs géométriques, un système de coordonnées affines locales et un encodage de l'azimut caméra. Les auteurs introduisent également le dataset XHZ, jeu de données panoramiques 8K collecté sur un navire en opération, couvrant des structures multi-niveaux de cabines, des zones de transition pont-intérieur et une séparation stricte requête-base de données. Sur ce benchmark, ProteusVPR réduit l'erreur de localisation moyenne de plus de 60 % par rapport aux backbones classiques testés. Ce résultat pèse parce que les méthodes VPR actuelles, conçues pour l'urbain ou l'indoor, échouent systématiquement à généraliser sur des scènes aussi hétérogènes au sein d'un même parcours. En inspection navale autonome, une localisation dégradée invalide un cycle d'audit entier ou génère de fausses alertes sur l'état de la coque ou des espaces confinés. La modularité de ProteusVPR est son argument commercial le plus fort : son deuxième étage s'intègre au-dessus de tout pipeline VPR existant, ce qui réduit le coût d'adoption pour les équipes qui disposent déjà d'une infrastructure de localisation visuelle. La VPR est un problème actif depuis vingt ans, de NetVLAD aux approches transformers récentes, mais son application maritime reste marginale, la plupart des systèmes embarqués s'appuyant sur LiDAR ou GNSS, peu fiables sous pont. Des acteurs comme SeaRobotics, Voyis ou Greensea Systems couvrent l'inspection de coque et sous-marine, mais le créneau ponts-cabines demeure peu industrialisé. L'équipe ne mentionne ni partenaire industriel ni calendrier de déploiement : ProteusVPR reste pour l'heure une contribution académique (preprint arXiv), sans produit embarqué démontré en conditions réelles.

1 source
Apprentissage topologique en ligne pour la commande de formation par déplacement
352arXiv cs.RO 

Apprentissage topologique en ligne pour la commande de formation par déplacement

Une équipe de recherche a publié sur arXiv (arXiv:2606.23901, juin 2026) un nouveau cadre de contrôle de formation multi-robots baptisé TOLD, pour Topological Online Learning for Displacement-based. La contribution centrale est une adaptation en temps réel des poids d'interaction entre agents, c'est-à-dire la topologie du graphe de communication, plutôt que de réguler uniquement les commandes individuelles de chaque robot. Deux variantes sont proposées : OGF (Online Gradient Flow), à poids non contraints, et OExpGF (Online Exponential Gradient Flow), à poids convexes non négatifs. Les simulations portent sur douze robots soumis à des perturbations intermittentes et montrent une réduction médiane de l'erreur cumulée de distorsion de formation (Root Mean Distortion Error) comprise entre 1,2 % et 33,14 % lorsque TOLD est combiné à des contrôleurs nodaux existants. Les expériences matérielles ont été conduites sur des nano-quadrotors Crazyflie 2.0 (Bitcraze), avec des réductions de distorsion médiane de 62 % pour OGF et 31,4 % pour OExpGF par rapport à un consensus à poids fixes. L'intérêt de TOLD réside dans le déplacement du point d'intervention : là où les approches robustes classiques agissent sur les entrées individuelles de chaque agent sans toucher à la structure du réseau, TOLD modifie dynamiquement les liaisons d'interaction pour minimiser directement la distorsion de formation. Pour un ingénieur systèmes ou un intégrateur de flottes AMR ou de drones, cela signifie potentiellement une meilleure résilience face aux pannes de communication ou aux perturbations environnementales sans nécessiter de reconfigurer l'architecture de contrôle. Sur le plan théorique, OExpGF garantit la convergence asymptotique pour des agents à intégrateur simple sur graphes orientés, propriété formellement établie dans l'article, ce qui lui confère une solidité analytique supérieure à OGF, lequel n'assure que la bornitude de l'erreur. Il convient de contextualiser les résultats : les expériences matérielles s'appuient sur les Crazyflie 2.0, des plateformes open-source de 27 grammes conçues pour la recherche académique, loin des conditions industrielles. L'article est une prépublication arXiv, non encore évaluée par les pairs. Le domaine du contrôle de formation par consensus est très actif, avec des contributions récentes sur les contrôleurs robustes nodaux, les approches par apprentissage distribué et les méthodes basées sur la théorie spectrale des graphes. TOLD se positionne dans un espace encore peu exploré, l'adaptation topologique en ligne, dont la transférabilité vers des flottes de robots terrestres ou des drones industriels (UAV inspection, logistique entrepôt) reste à démontrer dans des environnements moins contrôlés.

UELes résultats pourraient intéresser les laboratoires européens de robotique en essaim (LAAS-CNRS, ETH Zurich), mais aucun acteur français ou européen n'est directement impliqué ; la plateforme Crazyflie de Bitcraze (Suède) est le seul lien indirect avec l'UE.

RecherchePaper
1 source
Dynamique, stabilité et efficacité énergétique d'une roue sans jante récupératrice avec jambes à ressort-embrayage
353arXiv cs.RO 

Dynamique, stabilité et efficacité énergétique d'une roue sans jante récupératrice avec jambes à ressort-embrayage

Des chercheurs présentent sur arXiv (2606.22073) une roue à jantes à récupération d'énergie équipée de pattes à ressort-embrayage. Le principe : un embrayage verrouillable capture l'énergie élastique générée lors du contact du pied avec le sol et la réinjecte au cycle de marche suivant. Les simulations montrent une réduction du Coût de Transport (CoT) de 16,13 % par rapport à une roue viscoélastique de référence à pattes télescopiques ressort-amortisseur, et de plus de 50 % face à une roue rigide classique. Un prototype testé sur plan incliné atteint la marche passive sur une pente de 1°, avec un CoT d'environ 0,02, soit une valeur remarquablement basse pour un mécanisme de ce type. La stabilité locale des démarches périodiques est confirmée sur l'ensemble des configurations de pente et de rigidité testées. L'enjeu est concret pour la conception de robots bipèdes et de prothèses. Le CoT est l'indicateur de référence en locomotion robotique, rapportant l'énergie consommée à la masse et à la distance ; un CoT de 0,02 est proche des meilleurs marcheurs passifs biologiques, et très inférieur aux humanoïdes actifs actuels qui affichent typiquement des valeurs entre 1 et 3. Le mécanisme propose une récupération d'énergie purement mécanique, sans actionneur électrique, ce qui le rend pertinent pour des applications à faible consommation : exosquelettes, prothèses de membre inférieur ou robots d'exploration longue durée. Il illustre aussi comment l'intelligence mécanique passive peut compenser l'inefficacité des systèmes électriques à récupérer les pics d'énergie d'impact. La roue à jantes est un modèle canonique de la marche dynamique passive, introduit par McGeer en 1990 et depuis largement étudié pour modéliser la biomécanique bipède. L'idée de recycler l'énergie d'impact via des tendons artificiels (analogues au tendon d'Achille humain) est explorée depuis plusieurs années dans la littérature de la locomotion robotique. Ce travail se distingue par l'ajout d'un embrayage verrouillable qui contrôle précisément le moment de libération de l'énergie stockée. Il convient toutefois de souligner que les résultats expérimentaux portent sur un prototype passif simple, non sur un robot actif complet : l'extrapolation à un bipède actif reste à démontrer. La prochaine étape logique serait d'intégrer ce mécanisme dans un marcheur bipède actif ou un genou prothétique afin d'évaluer les gains en conditions de locomotion variées.

RecherchePaper
1 source
SWAP : modèle du monde symétrique équivariant pour le parkour robotique agile
354arXiv cs.RO 

SWAP : modèle du monde symétrique équivariant pour le parkour robotique agile

Des chercheurs ont publié sur arXiv le 19 juin 2026 un preprint décrivant SWAP (Symmetric World-model for Agile Parkour), un cadre d'apprentissage par renforcement pour la locomotion agile de robots quadrupèdes. L'approche couple un modèle du monde latent, qui permet des prédictions proactives sur le terrain à venir, avec un principe d'équivariance par symétrie gauche-droite intégré simultanément dans le modèle du monde et dans les réseaux acteur-critique. En tests réels, le robot associé au framework franchit un fossé de 2,13 mètres d'un saut et escalade une plateforme de 1,63 mètre. Les auteurs présentent ces résultats comme des records pour le parkour quadrupède, affirmation non encore validée de façon indépendante. Le système démontre également une généralisation robuste à des environnements extérieurs et à des terrains miroirs non vus lors de l'entraînement, sans ré-entraînement (zero-shot transfer). L'enjeu central est l'efficacité d'apprentissage. Les modèles du monde purement pilotés par les données encodent les interactions symétriques gauche-droite comme des patterns indépendants, gonflant inutilement la complexité d'apprentissage et empêchant la capture des régularités géométriques du terrain. En intégrant l'équivariance comme prior structurel, SWAP réduit cette redondance et rend l'espace latent plus compact pour la politique en aval. Pour les équipes de recherche appliquée, le résultat le plus notable reste le transfert zero-shot vers des terrains inédits : si confirmé sur d'autres plateformes matérielles, cela réduirait le besoin de données de fine-tuning spécifiques à chaque déploiement, un verrou important dans le sim-to-real actuel pour la locomotion agile. Le parkour quadrupède est devenu un benchmark de facto depuis les travaux d'ETH Zurich sur ANYmal et le papier Parkour Learning de 2023, suivis par Carnegie Mellon University, qui ont progressivement montré que des politiques entraînées en simulation pouvaient généraliser à des obstacles physiques complexes. L'usage de modèles du monde latents pour la locomotion reste une piste plus récente par rapport aux pipelines classiques de RL bout-en-bout, et SWAP se positionne à l'intersection de ces deux axes. Le preprint ne mentionne ni le nom précis du robot utilisé ni l'institution d'origine des auteurs, deux détails qui limiteront la reproductibilité jusqu'à la publication complète en conférence. Aucun déploiement industriel ni partenariat commercial n'est annoncé à ce stade.

RecherchePaper
1 source
Apprentissage robotique ludique à base d'agents
355arXiv cs.RO 

Apprentissage robotique ludique à base d'agents

RATs (Robotics Agent Teams) est un système d'apprentissage robotique agentic présenté dans le preprint arXiv 2606.19419 qui introduit une phase de "jeu" auto-dirigé avant toute tâche explicite. L'agent, basé sur le paradigme Code-as-Policy (CaP), propose lui-même des tâches exploratoires, exécute des politiques en code, vérifie les progrès intermédiaires, diagnostique les échecs avec un feedback dense à chaque étape et distille les exécutions réussies dans une bibliothèque de compétences persistante. À l'inférence, cette bibliothèque gelée est réutilisée par d'autres agents pour résoudre des tâches inédites, sans fine-tuning du modèle sous-jacent. Sur les benchmarks LIBERO-PRO et MolmoSpaces, RATs surpasse la baseline CaP-Agent0 de 20,6 et 17,0 points de pourcentage respectivement ; les compétences acquises sont également transférables à d'autres agents CaP, avec des gains de 8,9 points sur RoboSuite et 8,8 points en déploiement réel. La portée industrielle de cette approche tient principalement à deux éléments. La séparation entre phase d'acquisition de compétences et phase d'exécution crée une bibliothèque réutilisable partageable entre agents hétérogènes sans réentraînement, ouvrant la voie à des bibliothèques de primitives robotiques mutualisées sur des flottes entières. Les gains en transfert réel (+8,8 points) suggèrent par ailleurs que l'apprentissage par jeu améliore la robustesse sim-to-real, défi persistant pour les systèmes VLA (Vision-Language-Action) déployés hors simulation. Il convient toutefois de nuancer : le preprint ne détaille ni les conditions de déploiement réel ni le profil précis des tâches testées, ce qui limite l'évaluation en contexte industriel non contrôlé. Le paradigme Code-as-Policy, introduit par Google DeepMind avec SayCan et Code as Policies entre 2022 et 2023, utilise des LLMs pour générer du code Python interprétable comme politique robotique. RATs y greffe un mécanisme d'exploration issu de la robotique développementale, prolongeant une lignée de travaux sur les agents curieux et l'apprentissage non supervisé de compétences. Dans un paysage dominé par des architectures VLA end-to-end, comme Pi-0 et Helix de Physical Intelligence ou Figure 03 de Figure Robotics, cette approche code-first se distingue par sa modularité et sa moindre dépendance aux données d'annotation denses. Le travail reste à ce stade non revu par des pairs, et des validations à plus grande échelle dans des environnements variés et non structurés seront nécessaires pour confirmer sa portée opérationnelle.

💬 La vraie idée ici, c'est pas le "jeu" (ça fait bien dans un abstract), c'est la bibliothèque de compétences gelée et partageable entre agents sans ré-entraînement. Si ça tient hors labo, tu peux imaginer des flottes entières qui mutualisent leurs primitives robotiques comme des développeurs partagent des packages. Les +8,8 points en déploiement réel sont le seul chiffre qui compte, et il est là.

IA physiqueOpinion
1 source
MirrorDuo : apprentissage visuo-moteur cohérent par paires de démonstrations en miroir
356arXiv cs.RO 

MirrorDuo : apprentissage visuo-moteur cohérent par paires de démonstrations en miroir

Une équipe de chercheurs publie MirrorDuo (arXiv:2606.20048, juin 2026), une méthode d'apprentissage par imitation qui exploite la symétrie par réflexion pour doubler virtuellement les données d'entraînement sans collecte supplémentaire. Le principe est géométrique : pour chaque démonstration capturée via caméra RGB, le système génère automatiquement son équivalent en miroir, transformant simultanément l'image, les données proprioceptives et les tuples d'action en espace 6-DOF (six degrés de liberté du préhenseur). Les auteurs résument l'idée en une formule : "collect one, get one for free". La méthode s'intègre soit comme stratégie d'augmentation de données dans des pipelines existants, notamment le clonage comportemental standard et la diffusion policy, soit comme prior structurel pour des réseaux de politique réflexion-équivariants. L'enjeu pratique est direct : le coût de collecte de démonstrations diversifiées reste l'un des principaux freins au déploiement de robots manipulateurs en milieu industriel. MirrorDuo apporte un gain de performance mesurable à budget de données constant, particulièrement lorsque les démonstrations sont distribuées de façon équilibrée des deux côtés de l'espace de travail. Mieux : lorsque les démonstrations sont concentrées d'un seul côté, la méthode permet un transfert de compétence vers le côté symétrique avec seulement zéro à cinq démonstrations dans la configuration cible. C'est un résultat significatif dans un domaine où la généralisation inter-configuration reste coûteuse et fragile. Cela dit, les auteurs ne fournissent pas de métriques absolues de taux de succès dans le résumé, ce qui rend difficile d'évaluer l'ampleur réelle du gain sans lire les expériences complètes. Cette approche s'inscrit dans une tendance plus large visant à maximiser l'extraction d'information depuis un volume limité de démonstrations humaines. Les méthodes concurrentes incluent l'augmentation classique par transformation géométrique 2D, l'apprentissage en simulation avec transfert sim-to-real, et les architectures équivariantes déjà explorées pour des tâches planaires. MirrorDuo étend ce raisonnement au cas 6-DOF en espace 3D, ce qui est techniquement plus exigeant. L'article ne mentionne pas de partenaires industriels ni de calendrier de déploiement, et les validations restent confinées à des environnements de laboratoire contrôlés. La prochaine étape logique serait une évaluation sur des morphologies robotiques variées et des scènes non contraintes, là où la symétrie de l'espace de travail est moins garantie.

RecherchePaper
1 source
Tri-Info : prédiction d'échec généralisable et interprétable pour les modèles VLA par la théorie de l'information
357arXiv cs.RO 

Tri-Info : prédiction d'échec généralisable et interprétable pour les modèles VLA par la théorie de l'information

Une équipe de chercheurs a publié en juin 2026, via arXiv (arXiv:2606.19998), une méthode appelée Tri-Info (Triple Information-theoretic signals) pour détecter automatiquement les défaillances des modèles VLA (Vision-Language-Action) avant qu'ils ne causent des dommages irréversibles dans des environnements physiques. Testée sur six modèles VLA distincts et trois environnements de benchmark, Tri-Info atteint 83 % de précision sur des tâches en conditions réelles, là où les détecteurs existants s'effondrent au niveau du hasard. La méthode repose sur trois signaux dérivés de la théorie de l'information : la diversité des actions générées par le modèle, leur cohérence temporelle, et leur couplage aux transitions d'état observées dans l'environnement. Cruciale pour les déploiements industriels, Tri-Info ne nécessite aucun réentraînement pour fonctionner sur de nouvelles architectures ou dans de nouveaux environnements, y compris lors du passage simulation-vers-réel (sim-to-real). Ce résultat est directement pertinent pour les intégrateurs qui déploient des robots manipulateurs ou humanoïdes pilotés par des VLA comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI). L'opacité de ces modèles constitue un risque opérationnel concret : un VLA peut échouer silencieusement, entraînant une collision, une chute d'objet ou l'interruption d'un cycle de production. Tri-Info ajoute une couche de supervision interprétable capable de distinguer trois classes de défaillances (manque de diversité, incohérence temporelle, découplage état-action), ce qui facilite le diagnostic post-incident. Sa transférabilité sans réentraînement est stratégiquement importante : elle permet d'intégrer la détection sur des systèmes déjà déployés sans modifier le pipeline existant. Ce travail s'inscrit dans une course à l'industrialisation des VLA accélérée depuis fin 2024 avec les sorties de Pi-0 et d'OpenVLA, et les travaux de Google DeepMind sur RT-2 et ses successeurs. Le sim-to-real gap reste l'un des principaux freins à leur généralisation, la plupart des systèmes de détection entraînés en simulation perdant leur efficacité en conditions réelles. Tri-Info est à ce stade un preprint non encore revu par les pairs, et ses performances n'ont pas été reproduites de manière indépendante. Si elles se confirment, la méthode pourrait s'imposer comme une brique de sécurité standard dans les pipelines de déploiement robotique fondés sur des VLA.

RechercheOpinion
1 source
Les modèles VLA maîtrisent-ils les bases ? Évaluation de la rétention du sens commun et des connaissances du monde
358arXiv cs.RO 

Les modèles VLA maîtrisent-ils les bases ? Évaluation de la rétention du sens commun et des connaissances du monde

Une équipe de recherche a publié sur arXiv (arXiv:2606.19297) un protocole d'évaluation baptisé Act2Answer, conçu pour mesurer objectivement combien de connaissances de sens commun et de savoirs factuels les modèles Vision-Language-Action (VLA) conservent après leur fine-tuning sur des données robotiques. Le protocole transforme les benchmarks classiques d'évaluation de modèles de langage visuels (VLM) en épisodes tabulaires courts : l'agent doit répondre à une question en plaçant physiquement un objet parmi plusieurs candidats sur une surface, ce qui ancre l'évaluation dans une action réelle plutôt que dans un output textuel. L'étude couvre 7 modèles VLA et 9 modèles VLM de référence, testés sur une suite de scénarios couvrant plusieurs catégories de connaissances. À cela s'ajoute une technique de sondage couche par couche (layerwise intent probing) pour localiser où l'information pertinente à la réponse est encodée dans le backbone VLM et la tête d'action. Les résultats révèlent une dégradation systématique, mais inégale, des connaissances après adaptation robotique. Les VLA maintiennent des performances solides sur les concepts simples, mais accusent des écarts significatifs sur les catégories sémantiquement plus riches par rapport à leurs VLM d'origine. Autrement dit, le fine-tuning robotique érode préférentiellement les représentations de haut niveau, celles qui portent le raisonnement nuancé. Le probing couche par couche montre que les signaux pertinents culminent dans les couches intermédiaires du réseau, puis s'atténuent dans les couches supérieures, ce qui suggère que la tête d'action interfère avec la propagation des connaissances sémantiques. Fait notable : l'entraînement conjoint avec des données VQA (Visual Question Answering) est associé à une meilleure rétention des connaissances, ouvrant une piste concrète pour les architectures futures. L'outil résout aussi un problème méthodologique persistant : il devient difficile de distinguer un échec dû à une connaissance absente d'un échec de contrôle moteur de bas niveau. Act2Answer s'inscrit dans un débat plus large sur le sim-to-real gap et la robustesse des VLA en déploiement industriel. Les modèles VLA actuels, comme Pi-0 (Physical Intelligence), OpenVLA, ou les architectures dérivées de modèles comme LLaVA et Qwen-VL, héritent de VLMs préentraînés sur des corpus massifs, puis sont spécialisés sur des datasets robotiques relativement restreints. La question de la rétention des connaissances est directement pertinente pour les intégrateurs qui misent sur ces modèles pour des tâches impliquant une compréhension contextuelle du monde réel, au-delà du simple pick-and-place. Aucun acteur européen n'est mentionné dans l'étude. Le code et les environnements Act2Answer sont disponibles publiquement, ce qui permettra à d'autres équipes de compléter les comparaisons avec d'autres architectures et de tester l'impact de stratégies d'entraînement alternatives.

UELes équipes de recherche et les intégrateurs européens travaillant sur les VLA peuvent exploiter le benchmark Act2Answer (code public) pour évaluer la rétention de connaissances de leurs modèles et tester la stratégie d'entraînement conjoint VQA.

RechercheOpinion
1 source
DREAM-Chunk : regroupement d'actions réactif avec modèle du monde latent
359arXiv cs.RO 

DREAM-Chunk : regroupement d'actions réactif avec modèle du monde latent

DREAM-Chunk (arXiv:2606.18589, juin 2026) est une méthode d'inférence conçue pour corriger une fragilité structurelle des modèles vision-language-action (VLA) : l'exécution en boucle ouverte lors de l'action chunking. Ce paradigme, devenu standard dans les VLA actuels, consiste à inférer à basse fréquence un bloc d'actions (un "chunk") que le robot exécute séquentiellement à haute fréquence, sans rétroaction intermédiaire. Dès qu'un chunk est lancé, le robot le suit à l'aveugle, vulnérable aux perturbations dynamiques, aux erreurs matérielles et à l'observabilité partielle. DREAM-Chunk adresse ce problème sans modifier ni réentraîner la politique sous-jacente : à l'inférence, il génère plusieurs chunks candidats, simule leurs trajectoires dans un espace latent via un world model léger, et sélectionne celui dont l'état prédit correspond le mieux à l'observation réelle. La méthode est validée sur le benchmark Kinetix et sur quatre tâches de manipulation couvrant deux plateformes robotiques et deux architectures VLA distinctes. L'intérêt pratique est direct pour les intégrateurs industriels qui déploient des VLA pré-entraînés sans accès au pipeline d'entraînement : DREAM-Chunk s'insère comme une couche plug-and-play, sans fine-tuning requis. La méthode s'inscrit dans la tendance du test-time compute scaling, bien établie côté LLM mais encore naissante en robotique physique, où dépenser davantage de calcul à l'inférence peut compenser les limites d'un modèle sans passer par un nouveau cycle d'entraînement coûteux. Les résultats montrent que les gains augmentent avec le nombre de chunks candidats échantillonnés, et que l'avantage est particulièrement marqué lorsque les démonstrations contiennent des comportements correctifs, ce qui soulève une question pratique sur la composition des datasets de démo. Les world models latents en robotique ont une longue tradition (DREAMER, TD-MPC2, DreamerV3), mais leur couplage avec des VLA basés sur le chunking reste récent. Physical Intelligence avec pi-0, Figure AI et des équipes de Stanford, CMU et Berkeley explorent simultanément comment améliorer la robustesse en déploiement sans réentraînement complet. DREAM-Chunk se distingue par son caractère agnostique au modèle sous-jacent, ce qui facilite son adoption sur des architectures hétérogènes. La prochaine étape logique serait une validation sur des plateformes commerciales à manipulation dextre (Fourier GR1, Unitree G1) et des tâches à dynamiques hautement stochastiques comme l'assemblage de précision. Le papier ne mentionne ni partenaires industriels ni pilotes commerciaux annoncés.

💬 Le test-time compute scaling arrive enfin en robotique physique, et DREAM-Chunk en est un premier signal propre : générer des trajectoires candidates, simuler dans un espace latent, choisir la meilleure, sans toucher au modèle sous-jacent. Le chunking en boucle ouverte, c'est le point faible silencieux de tous les VLA actuels (ça marche dans 80% des cas, alors on n'en parle pas trop). Pour les intégrateurs qui déploient sans accès au pipeline d'entraînement, une couche qui corrige à l'inférence sans réentraîner, c'est la pièce manquante.

IA physiqueOpinion
1 source
Mem-World : modèles du monde conditionnés par l'action et augmentés par la mémoire pour la manipulation robotique persistante
360arXiv cs.RO 

Mem-World : modèles du monde conditionnés par l'action et augmentés par la mémoire pour la manipulation robotique persistante

Des chercheurs ont publié Mem-World sur arXiv (réf. 2606.18960, juin 2026), un modèle du monde multi-vues augmenté par mémoire pour la manipulation robotique. Le problème adressé est fondamental aux modèles du monde conditionnés par l'action (action-conditioned world models) : lors d'une tâche de manipulation, l'effecteur terminal occulte fréquemment la scène, et les mouvements rapides de la caméra embarquée au poignet rendent l'observation courante insuffisante pour prédire les vues futures, poussant les modèles à halluciner ou oublier des détails observés antérieurement. L'innovation centrale est W-VMem, une mémoire indicée par surfels (éléments de surface 3D) en 4D, centrée sur la vue poignet, qui ancre les observations historiques à des éléments de surface évoluant dans le temps. Cette structure permet une récupération de contexte conditionnée sur les actions futures et consciente de la géométrie de scène, via rendu et scoring basés sur les surfels. Sur les tâches de long horizon, le taux de réussite progresse de 58 % à 72 % grâce à la génération de données synthétiques, et la corrélation de Pearson entre évaluations simulées et performances réelles s'améliore de 14,5 % par rapport à Ctrl-World, le modèle de référence. Ce gain en corrélation est directement actionnable pour les équipes robotique : il indique qu'on peut davantage faire confiance aux rollouts simulés pour prédire le comportement réel d'une politique, réduisant la dépendance aux expérimentations physiques coûteuses. L'hallucination de scène était jusqu'ici un verrou majeur à l'utilisation des world models pour l'entraînement de politiques dextres ; en séparant explicitement quand et où chaque élément a été observé, W-VMem produit un contexte historique non-redondant et pertinent. Il convient toutefois de noter que les scénarios de test et les métriques d'évaluation ne sont pas détaillés dans le résumé disponible, ce qui limite l'interprétation directe des chiffres annoncés. Les world models conditionnés par l'action sont apparus d'abord en jeu vidéo et conduite autonome (DreamerV3, GAIA-1) avant d'être adaptés à la manipulation, domaine plus exigeant en raison des occlusions proches et de la dynamique de caméra embarquée. Ctrl-World est la référence directe contre laquelle Mem-World se positionne. Cette publication reste un preprint, non encore évalué par des pairs, sans partenaire industriel ni timeline de déploiement annoncé. Les suites naturelles incluent une évaluation sur des benchmarks standardisés comme RLBench et une intégration dans des pipelines de modèles Visual Language Action (VLA), où la cohérence temporelle des rollouts est un prérequis à l'entraînement à grande échelle.

RechercheOpinion
1 source
Guava : un cadre efficace et universel pour la manipulation incarnée
361arXiv cs.RO 

Guava : un cadre efficace et universel pour la manipulation incarnée

Des chercheurs ont publié en juin 2026 sur arXiv (identifiant 2606.18363) Guava, un cadre de harness pour agents robotiques de manipulation. Le système repose sur trois ingrédients identifiés après une exploration systématique de l'espace de conception : des boucles itératives perception-raisonnement-action, des abstractions d'action sémantiques et des observations multimodales. À partir de ces principes, les auteurs ont entraîné un modèle open-source de 4 milliards de paramètres en utilisant moins de 2 000 trajectoires collectées entièrement en simulation, sans aucune donnée réelle. Les évaluations en environnement simulé et en conditions réelles montrent des performances comparables aux modèles propriétaires de pointe, avec une généralisation robuste à des objets non vus en entraînement, des instructions inédites et des tâches longues à plusieurs étapes. Le résultat le plus significatif est qu'un modèle compact peut atteindre des performances compétitives avec des systèmes propriétaires massifs à condition que l'architecture de harness soit bien conçue, et non que le modèle soit immense. Cela conteste directement l'hypothèse dominante selon laquelle les systèmes VLA (Vision-Language-Action) end-to-end nécessitent des millions de trajectoires réelles pour franchir le sim-to-real gap. L'approche par tool use découple le raisonnement de haut niveau des modules de perception et de contrôle, rendant le cadre agnostique au modèle sous-jacent, un avantage concret pour les intégrateurs industriels souhaitant substituer les composants sans réentraîner l'ensemble du système. Ce travail s'inscrit dans un débat structurant de la manipulation robotique qui oppose les VLA end-to-end, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, aux approches modulaires par harness, qui misent sur la composabilité et le raisonnement émergent des LLM. L'approche rappelle SayCan (Google/Everyday Robots) ou Code as Policies, mais avec une validation sim-to-real plus explicite et sur modèle open-source. Le modèle 4B utilisé n'est pas nommé dans le papier, et aucun déploiement industriel ni partenariat commercial n'est mentionné : Guava demeure pour l'instant un résultat de recherche, sans timeline de productisation annoncée.

UELes laboratoires de recherche et intégrateurs robotiques européens peuvent s'appuyer sur ce cadre open-source pour développer des systèmes de manipulation compétitifs sans infrastructure de données réelles à grande échelle.

RechercheOpinion
1 source
Au-delà de la récupération d'erreur : un cadre de contrôle humain adaptatif pour les systèmes robotiques
362arXiv cs.RO 

Au-delà de la récupération d'erreur : un cadre de contrôle humain adaptatif pour les systèmes robotiques

Des chercheurs ont publié sur arXiv en juin 2026 (arXiv:2606.18189) une méthode appelée E-MPC (Engagement-aware Model Predictive Control), conçue pour repenser le rôle de l'humain dans la supervision des robots d'assistance. L'approche a été validée en simulation puis dans une étude utilisateur réelle, sur un système robotique d'aide à l'alimentation (bite acquisition), avec des participants simulant des limitations de mobilité. Le principe central : plutôt que de solliciter l'opérateur uniquement lorsqu'un robot échoue ou est en incertitude, le système planifie proactivement des moments d'interaction pour maintenir un niveau d'engagement choisi par l'utilisateur, tout en respectant une contrainte de charge cognitive maximale. E-MPC intègre un modèle de dynamique d'interaction utilisateur qui prédit comment l'engagement évolue en fonction de la fréquence et du type d'intervention demandée. Ce travail remet en cause un postulat dominant dans la robotique d'assistance : que l'autonomie maximale est toujours préférable pour l'utilisateur. Dans des contextes de caregiving physique, les personnes à mobilité réduite risquent de devenir de simples observateurs passifs d'un robot qui agit entièrement seul, ce qui dégrade l'expérience et potentiellement l'adhésion au système. E-MPC déplace le curseur : l'interaction n'est plus un signal d'échec, mais un levier de conception du workflow. Cela a des implications concrètes pour les intégrateurs de systèmes d'assistance à domicile ou en EHPAD, où le consentement continu et le sentiment de contrôle de l'utilisateur sont des critères de certification et d'acceptabilité. La robotique d'assistance humanoïde et collaborative accumule depuis plusieurs années des travaux sur le human-in-the-loop, mais ceux-ci se concentrent presque exclusivement sur la robustesse (détection de pannes, out-of-distribution handling). E-MPC s'inscrit dans une tendance plus récente qui emprunte aux travaux sur l'interaction adaptative et la téléopération partagée, avec des connexions aux recherches sur le shared autonomy (Javdani, Srinivasa et al.). Les auteurs n'annoncent pas de commercialisation ni de partenariat industriel à ce stade : il s'agit d'un prototype de recherche avec étude utilisateur, pas d'un produit déployé. Les suites naturelles incluent des essais avec de vraies populations en situation de handicap et l'extension à des tâches multi-étapes plus complexes que l'alimentation.

UELes implications pour la certification des robots d'assistance à domicile et en EHPAD (consentement continu, sentiment de contrôle utilisateur) sont directement pertinentes pour les intégrateurs français et la réglementation médicosociale en France.

RecherchePaper
1 source
GASE : système automatisé basé sur le Gaussian Splatting pour la reconstruction d'environnements de simulation incarnée
363arXiv cs.RO 

GASE : système automatisé basé sur le Gaussian Splatting pour la reconstruction d'environnements de simulation incarnée

Une équipe de chercheurs a publié fin juin 2026 un système baptisé GASE (Gaussian Splatting-Based Automated System for Reconstructing Embodied-Simulation Environments), conçu pour automatiser la construction de scènes de simulation photoréalistes destinées à l'entraînement de robots. Le pipeline exploite des réseaux de caméras panoramiques multivues pour capturer l'environnement réel, extrait automatiquement les objets de premier plan via une stratégie basée sur les poses de caméras dans le domaine 2D, puis reconstruit séparément objets et arrière-plan statique par 3D Gaussian Splatting avant de les importer dans un simulateur physique avec inpainting haute-fidélité des zones manquantes. Sur des benchmarks de segmentation, GASE surpasse les méthodes 3DGS concurrentes de plus de 10 %. Surtout, lors de déploiements réels sur des tâches de manipulation et de navigation, les politiques entraînées en simulation n'affichent qu'un écart de performance inférieur à 10 % par rapport à celles entraînées sur données réelles, arXiv:2606.17520. Ce résultat chiffré est l'argument central du papier. Le sim-to-real gap, soit la dégradation des performances lors du passage du simulateur au robot physique, reste l'un des obstacles majeurs au déploiement à grande échelle de l'apprentissage robotique. Un écart sous les 10 % suggère que la simulation générée automatiquement depuis des scans réels peut constituer un vecteur de data augmentation viable, réduisant la dépendance à des opérateurs qualifiés et à du matériel coûteux pour la collecte terrain. Pour les intégrateurs et les industriels engagés dans des projets de manipulation ou de navigation autonome, la promesse est de compresser significativement le coût des pipelines d'entraînement, à condition que la méthode tienne à l'échelle et sur des environnements plus complexes que ceux testés. GASE s'inscrit dans la trajectoire tracée par l'émergence du 3D Gaussian Splatting en 2023 comme alternative temps-réel aux NeRF pour la reconstruction de scènes. Les approches concurrentes, notamment SplatSim, Gaussian Grouping et les pipelines d'assets manuels dans Isaac Sim ou MuJoCo, progressent en parallèle, mais l'automatisation complète de l'acquisition jusqu'à l'import simulateur reste un problème ouvert. Le preprint ne mentionne ni institution ni partenaires industriels, ce qui rend difficile l'évaluation des perspectives de transfert applicatif. Le code doit être publié ultérieurement mais n'est pas encore disponible au moment de la soumission. Le périmètre limité des tâches testées et l'absence de comparaison avec des environnements synthétiques construits manuellement laissent plusieurs questions ouvertes à la communauté.

RecherchePaper
1 source
Quand les robots dorment : consolidation hors ligne des compétences pour l'apprentissage à politique partagée
364arXiv cs.RO 

Quand les robots dorment : consolidation hors ligne des compétences pour l'apprentissage à politique partagée

Des chercheurs ont publié mi-juin 2026 un article sur arXiv (réf. 2606.17493) présentant "Sleeping Robots", un framework d'apprentissage continu pour robots opérant sur de longues périodes. Le problème central visé est le suivant : lorsqu'un robot doit acquérir de nouvelles compétences séquentiellement, sans accès aux trajectoires ou aux fonctions de coût des tâches précédentes, les politiques partagées -- c'est-à-dire les contrôleurs unifiés sans têtes de décision ou adaptateurs spécifiques à chaque tâche -- tendent à se dégrader. Les auteurs mesurent une amélioration de 64 % du taux de succès moyen et un facteur x2,0 sur la fiabilité pairée par rapport à la meilleure baseline non-oracle sur le benchmark Meta-World MT5, composé de cinq tâches de manipulation. Des gains sont également rapportés sur SurgicAI, un benchmark de robotique chirurgicale. Ce travail adresse un angle mort structurel de la robotique déployée en conditions réelles : le "skill-coupling collapse". Ce phénomène, formalisé ici pour la première fois, désigne une pathologie subtile dans laquelle chaque compétence individuelle maintient un taux de succès acceptable, mais la fiabilité inter-tâches -- c'est-à-dire la capacité du robot à enchaîner ou alterner des tâches apparentées -- se détériore progressivement. Pour les intégrateurs industriels et les équipes R&D en robotique d'entrepôt ou chirurgicale, c'est une distinction critique : les métriques classiques de succès par tâche masquent une fragilité systémique qui ne se manifeste qu'en exploitation longue durée. La solution proposée, le cycle éveil-sommeil, apprend chaque nouvelle compétence en phase "wake" puis consolide hors-ligne la politique partagée en phase "sleep", en s'appuyant sur des "skill memories" gelées compactes -- des critiques gelés avec buffers d'états non ordonnés pour le renforcement, et des snapshots d'acteurs gelés avec buffers d'observations pour l'imitation. Les gradients issus de ces objectifs différentiables sont combinés via le théorème de négociation de Nash, avec ancrage adaptatif et excitabilité locale pour stabiliser la consolidation, ce qui représente une contribution algorithmique non triviale. L'apprentissage continu en robotique est un champ actif depuis plusieurs années, animé par la crainte du "catastrophic forgetting" documenté dans les réseaux de neurones depuis Kirkpatrick et al. (EWC, 2017). Les approches concurrentes incluent les méthodes à tête de décision par tâche (qui abandonnent l'idée d'une politique unifiée), le routage dynamique (mixture-of-experts), ou le rejeu d'expérience classique (Experience Replay) -- toutes supposant soit un accès aux données historiques, soit une architecture modulaire. Sleeping Robots se distingue en travaillant exclusivement avec des mémoires gelées compactes, sans accès aux données brutes passées, ce qui le rend compatible avec des contraintes de confidentialité ou de bande passante en déploiement embarqué. Côté acteurs, Google DeepMind (RT-2, SayCan), Physical Intelligence (Pi-0) et Figure (politique partagée sur Figure 02) travaillent tous sur des politiques générales multi-tâches, mais aucun n'a publié de mécanisme formalisé de consolidation hors-ligne comparable. Les prochaines étapes naturelles seraient une validation sur robots physiques réels (les résultats actuels sont en simulation) et un test sur des horizons temporels plus longs incluant des dizaines de tâches.

UEAucun acteur européen impliqué directement, mais les laboratoires EU (INRIA, CEA-List) et intégrateurs industriels travaillant sur des déploiements robotiques longue durée pourraient exploiter ce framework pour adresser la fragilité systémique inter-tâches non détectée par les métriques classiques.

RecherchePaper
1 source
Quel point de départ pour générer des actions ? Un prior source apprenable pour les politiques robotiques génératives
365arXiv cs.RO 

Quel point de départ pour générer des actions ? Un prior source apprenable pour les politiques robotiques génératives

Une équipe de chercheurs publie sur arXiv (2606.17408) LeaP, un Learnable source Prior qui modifie le point de départ de la génération d'actions dans les politiques robotiques génératives. Là où les approches classiques comme les diffusion policies ou le flow-matching initialisent la génération depuis un bruit gaussien standard indépendant de l'état du robot, LeaP le remplace par une gaussienne diagonale conditionnée sur la proprioception, paramétrée par un MLP léger qui prédit conjointement moyenne et variance adaptative sur des action chunks. Évalué sur 15 tâches de manipulation du benchmark RoboTwin, LeaP atteint 81,6 % de taux de succès moyen, surpassant quatre baselines de référence de 6,5 à 25,5 points de pourcentage. La méthode s'applique indifféremment aux générateurs flow-matching et diffusion-bridge, avec moins de paramètres, une convergence plus rapide, et des gains confirmés en déploiement réel. L'intérêt industriel de LeaP tient à sa nature modulaire : il s'agit d'un composant drop-in qui améliore toute politique générative existante sans modifier l'architecture du générateur ni le solveur d'inférence. Pour les équipes R&D travaillant sur la manipulation robotique en contexte industriel, qu'il s'agisse d'assemblage, de tri ou de logistique, cela signifie qu'un prior appris sur l'état interne du robot réduit la charge computationnelle à l'inférence tout en améliorant la précision des gestes. La publication valide une hypothèse jusque-là sous-explorée : la distribution source est un axe de conception indépendant, au même titre que le choix du type de générateur. Initialiser la génération depuis un bruit "informé" réduit la distance que le modèle doit parcourir dans l'espace des actions, ce qui se traduit directement en précision sur des tâches millimétriques. Les politiques génératives pour la manipulation ont émergé avec les diffusion policies (Chi et al., 2023) et le flow-matching appliqué à la robotique, popularisé notamment par Pi-0 de Physical Intelligence et les architectures VLA (Vision-Language-Action). Ces approches héritent toutes du même point aveugle : une initialisation gaussienne standard issue des modèles génératifs d'image, sans justification propre à la robotique. Dans l'espace des politiques génératives pour la manipulation, les concurrents directs incluent Diffusion Policy de Columbia et MIT, les variantes flow-matching de Physical Intelligence, ainsi que les architectures embarquées dans les humanoïdes de Figure AI et Agility Robotics. Les suites attendues portent sur l'intégration de ce prior dans des architectures VLA multimodales et son évaluation sur des benchmarks industriels de plus grande diversité.

RechercheOpinion
1 source
Adaptation aux dommages en quelques secondes pour les matériaux architecturés
366arXiv cs.RO 

Adaptation aux dommages en quelques secondes pour les matériaux architecturés

Des chercheurs du Murphey Lab publient sur arXiv (référence 2606.17394, juin 2026) LEAP, un algorithme d'adaptation proprioceptive permettant à un robot souple de compenser des dommages catastrophiques, coupures, brûlures ou défaillances d'actionneurs, en moins d'une minute sans recours à la simulation. La démonstration porte sur une tâche de traçage menée par un poignet souple à 6 degrés de liberté (6DoF) à base d'actionneurs HSA (Handed Shearing Auxetic), une classe de matériaux dits architecturés dont la géométrie interne est conçue pour coupler rotation et translation. L'algorithme exploite uniquement des signaux proprioceptifs internes pour inférer une représentation latente des dommages dans un espace de faible dimension, puis une méthode d'ensemble robuste permet d'adapter le contrôle en temps réel à des dommages non anticipés lors de l'entraînement. Le résultat théorique central est que, pour les matériaux architecturés, la complexité d'échantillonnage nécessaire à l'apprentissage de représentations de dommages croît de façon linéaire plutôt qu'exponentielle, un avantage structurel par rapport aux composants rigides ou aux mécanismes souples continus. Pour les intégrateurs, l'absence de dépendance à un simulateur supprime le problème du sim-to-real gap, fréquemment bloquant en production réelle. La capacité à s'adapter à des dommages imprévus en moins d'une minute constitue un verrou critique pour l'autonomie longue durée des robots de service et industriels, que LEAP adresse ici sur un effecteur physique réel. À noter que la validation reste limitée à un unique type d'effecteur et à des scénarios de dommages relativement ciblés. LEAP s'inscrit dans la dynamique de la robotique souple où des acteurs comme Harvard (Soft Robotics Toolkit), l'EPFL (laboratoire Biorobotics) et Festo du côté européen travaillent sur la résilience matérielle et l'adaptation en service. Les actionneurs HSA sont une innovation issue de recherches antérieures sur les matériaux auxétiques, connus pour leur comportement mécanique non conventionnel. Ce travail est un preprint académique, pas un produit commercialisé ni un déploiement industriel annoncé. Les suites naturelles incluent l'intégration sur un bras complet, des tests hors laboratoire en environnement non structuré, et la validation sur des cycles de vie prolongés.

UEL'EPFL (laboratoire Biorobotics) et Festo, acteurs européens de la robotique souple résiliente, opèrent dans le même périmètre ; LEAP constitue une référence académique directement pertinente pour leurs travaux sur l'adaptation en service sans dépendance au simulateur.

RecherchePaper
1 source
FlashNav : entraînement ultra-rapide d'une politique de navigation robotique en 20 secondes
367arXiv cs.RO 

FlashNav : entraînement ultra-rapide d'une politique de navigation robotique en 20 secondes

FlashNav, un framework d'entraînement de politiques de navigation robotique présenté dans une préprint arXiv (2606.15846) publiée en juin 2026, annonce un entraînement en moins de 20 secondes sur GPU pour des politiques de navigation déployables sur robots réels. Les auteurs ont testé le système sur deux plateformes matérielles : le robot à roues TurtleBot2 et le robot quadrupède Unitree Go2. Sur une carte RTX 5090, FlashNav atteint un taux de succès de 100 % en dessous de 20 secondes, et reste dans les dizaines de secondes sur des GPU de bureau grand public. L'architecture repose sur un simulateur bitmap batché et un pipeline d'entraînement entièrement résidant sur GPU, piloté par un algorithme baptisé FastDSAC, qui génère en parallèle un volume massif de transitions de navigation sans jamais quitter la mémoire GPU. La clé du gain de vitesse est architecturale : FlashNav aligne strictement la simulation sur le MDP (processus de décision markovien) de navigation, en conservant uniquement les composantes utiles à l'apprentissage, géométrie d'occupation, capteurs de distance (range sensing), contrôle conditionné par objectif, dynamique de mouvement, gestion des collisions, terminaison et réinitialisation, tout en éliminant le rendu graphique et les détails physiques haute-fidélité habituellement présents dans les simulateurs. Ce choix réduit drastiquement le coût computationnel sans sacrifier la transférabilité : les politiques apprises se transfèrent sur robots physiques, en environnement intérieur statique et dynamique. Pour les intégrateurs robotiques, c'est un signal fort : le sim-to-real gap reste gérable même avec une simulation volontairement appauvrie, à condition que le MDP soit correctement modélisé. Le deep reinforcement learning pour la navigation autonome souffrait jusqu'ici d'un frein majeur à l'adoption industrielle : des cycles d'entraînement de plusieurs heures, voire de plusieurs jours, incompatibles avec l'itération rapide en production. FlashNav attaque directement ce verrou. Sur le plan concurrentiel, il se positionne face aux approches de navigation basées sur des cartes (SLAM classique) et aux VLA (Vision-Language-Action models) qui nécessitent des ressources de calcul bien supérieures. La prochaine étape naturelle sera de valider le passage à l'échelle dans des environnements dynamiques plus complexes et sur des flottes de robots, ce que la préprint ne couvre pas encore.

RecherchePaper
1 source
PO-PDDL : apprentissage de POMDP symboliques à partir de démonstrations visuelles pour la planification robotique sous incertitude
368arXiv cs.RO 

PO-PDDL : apprentissage de POMDP symboliques à partir de démonstrations visuelles pour la planification robotique sous incertitude

Des chercheurs ont proposé PO-PDDL (arXiv:2606.15654, juin 2026), une formulation symbolique des processus de décision markoviens partiellement observables (POMDP) pour la planification robotique en conditions réelles. Le système étend PDDL, standard de facto en planification symbolique depuis les années 1990, en y intégrant explicitement l'observabilité partielle, la stochasticité des actions et la gestion des croyances (beliefs). Un pipeline d'apprentissage reconstruit automatiquement les trajectoires d'état symbolique latentes à partir de vidéos d'exécution de robot réel, détecte les incohérences entre états inférés et observations visuelles pour localiser les zones d'incertitude perceptive, puis apprend les modèles de transition et d'observation stochastiques correspondants. Les domaines générés sont réutilisables entre tâches et permettent une planification en ligne dans l'espace des croyances. Testée sur des tâches de manipulation longue durée (long-horizon) en environnement physique réel, la méthode surpasse les approches existantes d'apprentissage de modèles PDDL et POMDP, avec un coût de planification significativement réduit. L'apport concret pour les intégrateurs robotiques est de supprimer l'effort d'ingénierie lié à la construction manuelle des modèles POMDP, traditionnellement l'un des verrous de la planification symbolique déployable. Apprendre depuis des vidéos de robots réels plutôt que depuis des simulateurs contourne partiellement le gap sim-to-real qui fragilise nombre d'approches d'apprentissage. La syntaxe PDDL préservée ouvre une voie d'intégration avec des LLM pour la spécification de tâches, un axe actif en recherche (voir LLM+P, ProgPrompt). Le fait que les domaines soient réutilisables et que la planification opère en temps réel sous incertitude perceptive et d'exécution représente un pas vers des architectures neuro-symboliques exploitables hors laboratoire. La planification symbolique butte depuis longtemps sur la difficulté de paramétrer les POMDP pour des environnements physiques réels. Des travaux antérieurs comme FAMA ou LOCM ont progressé sur l'apprentissage de modèles PDDL déterministes, sans traiter simultanément stochasticité et observabilité partielle depuis des observations visuelles brutes. PO-PDDL se positionne aussi face aux politiques de bout en bout (VLA, politiques de diffusion) qui absorbent l'incertitude dans le réseau sans la modéliser explicitement. La lisibilité et débuggabilité du formalisme symbolique restent un argument différenciant pour le déploiement industriel. Il s'agit pour l'instant d'un preprint non évalué par les pairs ; les prochaines étapes naturelles incluent l'évaluation sur des manipulations plus complexes et l'intégration dans des stacks open-source comme ROS 2.

RecherchePaper
1 source
Robots comme tokens : un transformeur de diffusion unifié pour la génération de trajectoires multi-robots coordonnées
369arXiv cs.RO 

Robots comme tokens : un transformeur de diffusion unifié pour la génération de trajectoires multi-robots coordonnées

Des chercheurs ont publié sur arXiv (2606.15550) Roken, pour "Robots as Tokens", un transformeur de diffusion unifié capable de générer simultanément des trajectoires coordonnées pour plusieurs robots mobiles. Contrairement aux approches dominantes, qui soit se limitent à la planification monorobot, soit enchaînent les trajectoires de façon séquentielle avant d'appliquer des post-traitements itératifs pour résoudre les conflits inter-robots, Roken produit l'ensemble des trajectoires en une seule passe feed-forward. Chaque robot est représenté comme un token discret dans le modèle, ce qui lui permet d'interagir naturellement avec les autres via la self-attention, et de se référer aux tokens de carte pour percevoir l'environnement par cross-attention. Des tâches auxiliaires fondées sur le théorème de Bayes fournissent une supervision spatio-temporelle multi-échelle pour apprendre la distribution conditionnelle. À l'inférence, le modèle supporte indifféremment la planification monorobot, la génération coordonnée multi-robot et la génération conditionnelle (en fixant certains tokens comme conditions). Les expériences, menées en simulation dans des environnements encombrés variés, montrent des taux de succès élevés sur des tâches de navigation avec contraintes de connectivité, dépassant le planificateur classique qui avait servi à générer les données d'entraînement. L'intérêt principal de Roken réside dans sa scalabilité et sa généralisation : le modèle est entraîné sur des équipes de tailles mixtes et se généralise à des équipes et des environnements non vus lors de l'entraînement, y compris en observation partielle. Pour les intégrateurs de flottes AMR ou les systèmes multi-agents en entrepôt, cette capacité à planifier pour N robots sans replanification itérative représente un gain de latence significatif. Que le modèle surpasse son propre générateur de données d'entraînement est notable, mais il faut souligner que toutes les expériences sont en simulation ; le transfert sim-to-real reste non démontré, ce qui est le verrou habituel pour ce type d'approche. Ce travail s'inscrit dans une vague de recherche qui transpose les succès des modèles génératifs (diffusion, transformeurs) du langage et de la vision vers la planification robotique. Des travaux comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) explorent des architectures similaires pour le contrôle mono-robot, mais la coordination multi-agents via des tokens partagés reste un territoire peu défriché. Roken propose une formalisation élégante du problème, mais son évaluation reste entièrement simulée à ce stade. Les prochaines étapes naturelles seraient une validation sur robots réels et une comparaison avec des planificateurs multi-agents classiques comme CBS (Conflict-Based Search) sur des métriques standardisées.

RecherchePaper
1 source
La démonstration parfaite est un mauvais professeur : alignement robuste par segments de mouvement critiques
370arXiv cs.RO 

La démonstration parfaite est un mauvais professeur : alignement robuste par segments de mouvement critiques

Une étude publiée sur arXiv le 16 juin 2026 (réf. 2606.15587) remet en cause un postulat fondamental de l'apprentissage par imitation en robotique : les démonstrations expertes fluides ne sont pas nécessairement les meilleures données d'entraînement. Pour des tâches de manipulation fine (insertion, empilement, alignement), les chercheurs montrent qu'un opérateur habile compresse précisément les instants décisifs de correction dans une fenêtre temporelle très courte, noyant la politique apprise sous des mouvements de transit redondants et lui fournissant trop peu de supervision aux moments où la précision est déterminante. Expérimentalement, une politique entraînée sur des démonstrations fluides standard plafonne à 50,0 % de taux de succès sur ces tâches. Ce résultat a des implications directes pour les équipes qui constituent des datasets pour entraîner des modèles vision-langage-action (VLA) comme Pi-0 ou GR00T N2. Deux axes de correction sont testés. Au niveau des données, ralentir la capture autour des moments d'alignement et rééchantillonner les segments critiques améliore les performances, mais l'essentiel du gain vient de l'élargissement de la couverture des états de récupération, pas d'un simple rééquilibrage des frames existantes. Au niveau de la représentation, les auteurs introduisent STAIR (Spatio-Temporal feature As an Interface for Robot learning), un module compact qui s'intercale entre le backbone vision-langage et le réseau d'action, en distillant les dynamiques de mouvement à court horizon déjà enregistrées dans chaque trajectoire. Entraîné uniquement sur des données fluides, STAIR atteint 62,2 % de succès, contre 64,4 % pour les démonstrations délibérément ralenties. Ces travaux s'inscrivent dans une vague de recherche qui remet en question la stratégie de collecte de données pour l'imitation learning, notamment dans le sillage des politiques de diffusion (Diffusion Policy, ACT) et des architectures VLA à grande échelle. L'idée que "plus de données expertes = meilleure politique" est directement challengée : la learnability machine peut diverger de l'efficacité humaine. La prochaine étape logique est de valider STAIR sur des tâches de contact plus complexes (vis, connecteurs électroniques) et sur des robots physiques déployés en dehors de l'environnement de laboratoire, ce que le papier ne montre pas encore. À surveiller lors des soumissions de conférences de fin 2026 (CoRL, ICRA).

UELes équipes R&D européennes développant des modèles VLA pour la manipulation fine pourraient adapter leurs protocoles de collecte de données en ralentissant la capture sur les segments critiques d'alignement.

RechercheOpinion
1 source
Entraînement et évaluation des politiques de diffusion avec de longs contextes
371arXiv cs.RO 

Entraînement et évaluation des politiques de diffusion avec de longs contextes

Une équipe de recherche a publié le 20 juin 2026 sur arXiv (arXiv:2606.16447) une étude systématique sur l'impact de la longueur de contexte dans l'apprentissage par imitation pour la manipulation robotique. Les politiques diffusion actuelles, celles qui apprennent des trajectoires motrices à partir d'observations RGB, ne conditionnent généralement les actions du robot que sur une courte fenêtre temporelle d'observations passées. Les auteurs ont construit un benchmark couvrant un spectre de tâches à stabilité locale et à exigences mémoire variables, en faisant varier progressivement la longueur du contexte de courte à longue, et ce dans plusieurs régimes de données. Leur résultat central : avec le bon backbone de débruitage (UNet avec cross-attention), les politiques single-task atteignent des taux de succès élevés même en scalant naïvement le contexte, y compris dans les régimes de données standards. Les chercheurs proposent également un algorithme d'entraînement qui entraîne conjointement les politiques sur plusieurs longueurs de contexte, réduisant ainsi la complexité d'échantillonnage de l'apprentissage à long contexte. Cette étude remet directement en cause un consensus répandu dans la littérature sur les VLA (Vision-Language-Action models) et les diffusion policies : l'idée que l'extension naïve du contexte serait fragile et nécessiterait des solutions architecturales spécifiques. Si ce résultat se confirme sur des benchmarks plus larges, il simplifie considérablement le pipeline de développement pour les intégrateurs robotiques, qui n'auraient plus besoin d'architectures mémoire spécialisées (LSTM, state-space models) pour résoudre des tâches séquentielles longues. C'est aussi un signal que le "memory gap" souvent invoqué pour justifier des approches complexes était peut-être surestimé, au moins dans les régimes de données courants. Les diffusion policies sont devenues un axe central de la robotique de manipulation depuis les travaux de Diffusion Policy (Chi et al., 2023) et leurs déclinaisons comme pi-0 de Physical Intelligence. La question du contexte long était jusqu'ici traitée par des approches ad hoc, recurrence, attention causale, mémoire externe. Cette étude offre la première analyse systématique à ce niveau de granularité, selon les auteurs eux-mêmes. Les prochaines étapes naturelles incluent la validation sur des tâches de manipulation industrielle réelle, la généralisation multi-tâche, et l'évaluation contre des baselines comme ACT ou des variantes de pi-0, dont les benchmarks publics permettraient une comparaison directe.

RecherchePaper
1 source
Robots collaborants : imitation séquentielle asymétrique pour l'apprentissage de politiques couplées
372arXiv cs.RO 

Robots collaborants : imitation séquentielle asymétrique pour l'apprentissage de politiques couplées

Des chercheurs ont présenté Sequential Asymmetric Imitation (SAI), une méthode d'apprentissage par imitation pour entraîner deux robots manipulateurs mobiles bimanuels à collaborer physiquement sur des tâches conjointes impliquant des objets rigides ou déformables. Publiée en pré-impression sur arXiv (2606.16490v1), l'étude part d'un constat précis : les échecs en manipulation collaborative ne proviennent pas d'un manque de compétence individuelle, mais de problèmes de synchronisation, notamment les attentes mal timées, le cédage insuffisant et les conflits lors du saisissement ou du relâchement d'objets. SAI propose un curriculum en trois étapes piloté par un seul téléopérateur : Robot A est d'abord entraîné à partir de démonstrations unilatérales avec un partenaire humain compliant ; Robot B est ensuite entraîné contre la politique déployée de Robot A ; enfin, Robot A est affiné par des interventions ponctuelles ciblées sur les zones de défaillance de coordination. Les expériences en conditions réelles montrent des gains mesurés sur la réussite des tâches, la synchronisation de phase et le comportement de cédage adaptatif, par rapport à des baselines d'imitation indépendante. L'apport principal de SAI réside dans l'élimination de la contrainte des démonstrations synchronisées à deux opérateurs, un frein logistique majeur pour la collecte de données dans les systèmes multi-robots. En structurant le curriculum de manière asymétrique, la méthode expose progressivement chaque robot à des comportements partenaires de plus en plus réalistes, incluant délais, décalages de phase et résistance insuffisante, sans nécessiter de canal de communication explicite entre les robots. Pour les intégrateurs industriels, l'argument est concret : un seul opérateur qualifié suffit à générer un dataset multi-agent viable. L'étude suggère que la coordination physique peut émerger de la structure du curriculum d'imitation elle-même, plutôt que d'un mécanisme de coordination dédié, ce qui contredit l'hypothèse dominante selon laquelle la collaboration multi-robot nécessite obligatoirement une communication inter-agents ou des démonstrations co-téléopérées. Ce travail s'inscrit dans un corpus croissant sur la manipulation multi-robot en milieu non structuré, où les approches dominantes reposaient jusqu'ici soit sur des communications inter-robots explicites, soit sur des démonstrations co-téléopérées coûteuses. En n'utilisant aucun des deux, SAI propose une troisième voie potentiellement plus scalable pour les déploiements industriels impliquant des paires de bras robotiques. Il convient toutefois de souligner que la méthode n'est validée que sur un ensemble limité de tâches réelles, sans benchmark standardisé face à des méthodes récentes comme ACT ou Diffusion Policy en contexte multi-agent, et que ce document reste un pré-print non révisé par les pairs. La page projet est disponible sur GitHub (cyc0429.github.io/sai-project-page) ; les prochaines étapes naturelles incluront la généralisation à des topologies de tâches plus complexes et l'évaluation sur des horizons temporels plus longs.

RecherchePaper
1 source
Pilotage de politique d'inférence par vision et toucher
373arXiv cs.RO 

Pilotage de politique d'inférence par vision et toucher

Des chercheurs ont publié sur arXiv (réf. 2606.14981, juin 2026) ViTaL, un framework de pilotage à l'inférence combinant vision et toucher pour affiner les politiques de manipulation robotique. Le principe : plutôt que de ré-entraîner un modèle génératif pré-entraîné, ViTaL intervient au moment de l'exécution en vérifiant et corrigeant les séquences d'actions candidates avant qu'elles ne soient jouées. Le système repose sur une optimisation bi-niveaux, un niveau haut visuel qui sélectionne le comportement global à longue portée, et un niveau bas tactile qui édite en diffusion la séquence retenue pour satisfaire les contraintes de contact locales. Un monde latent visuo-tactile appris permet d'évaluer des récompenses tactiles futures via un verifieur conditionné en texte, sans avoir besoin de capteur physique au moment de la prédiction. Sur trois tâches réelles de manipulation à contact riche (assemblage, insertion, dépose sous contrainte), ViTaL améliore le taux de succès global de 51 % par rapport à la politique de base, dépasse les approches unimodales (vision seule) d'au moins 33 %, et surpasse la fusion multimodale naïve d'au moins 20 %. Ces résultats pèsent dans un débat central de la robotique de manipulation : la vision seule suffit-elle à piloter des robots en environnement de contact ? ViTaL répond non, et quantifie l'écart. Pour les intégrateurs et les équipes R&D travaillant sur l'assemblage industriel ou la manipulation d'objets déformables, la démonstration que l'information tactile peut être injectée à l'inférence sans retraining complet est directement exploitable, elle ouvre une voie vers des politiques génériques adaptables à de nouveaux contextes de contact via du "steering" léger. L'édition par diffusion guidée par le toucher est particulièrement notable : elle permet de préserver le comportement global appris tout en rectifiant les micro-interactions, ce qui réduit le risque de régression comportementale souvent observé lors du fine-tuning. ViTaL s'inscrit dans la vague des approches "inference-time compute" appliquées à la robotique, popularisées par les travaux sur les VLA (Vision-Language-Action models) et les politiques de diffusion de type π0 (Physical Intelligence) ou GR00T N2 (NVIDIA). L'idée de vérifier les actions à l'exécution plutôt qu'au train-time est également explorée par des équipes comme Covariant et Figure AI, mais sans capteurs tactiles intégrés dans la boucle de correction. La spécificité de ViTaL est de traiter le retour tactile comme une source de supervision temporelle courte portée, complémentaire à la vision longue portée. L'article reste un preprint et les tâches testées sont de complexité modérée ; une validation sur des scénarios industriels réels (tolérance sub-millimétrique, variabilité de pièces) sera nécessaire pour confirmer la généralisation.

IA physiqueOpinion
1 source
X-Tokenizer : tokenizer d'actions multimodal pour le pré-entraînement VLA
374arXiv cs.RO 

X-Tokenizer : tokenizer d'actions multimodal pour le pré-entraînement VLA

Des chercheurs ont publié fin juin 2026 sur arXiv (2606.14752) les résultats de X-Tokenizer, une architecture légère de type encodeur-SRQ-décodeur conçue pour améliorer la couche d'interface entre le raisonnement visio-linguistique et le contrôle moteur continu des bras robotiques. Le système introduit une technique appelée Semantic Residual Quantization (SRQ), une variante asymétrique de la quantification vectorielle résiduelle classique : le premier niveau est entraîné via un mécanisme de Masked Action Modeling (MAM) pour former un "langage d'actions" discret capturant l'intention de mouvement à gros grain, tandis que les niveaux suivants restent orientés reconstruction pour préserver les détails fins. X-Tokenizer a été pré-entraîné sur 2,4 millions de trajectoires, soit 2,0 milliards de frames d'actions, couvrant des bras robotiques d'embodiments variés. Une fois gelé, il se branche comme signal de supervision dans un VLA hybride discret-continu. Les résultats rapportés sur RoboTwin 2.0 et sur des benchmarks réels montrent des performances de premier rang en agrégat, avec +13,5 % de grounding multimodal et +8,25 points sur les tâches long-horizon par rapport au tokenizer FAST, référence actuelle du domaine. L'enjeu central est ce qu'on appelle le "demo-to-deployment gap" dans les modèles Vision-Language-Action : des VLA comme pi-0, GR00T N2 ou OpenVLA apprennent à raisonner en langage naturel mais peinent à traduire ce raisonnement en commandes motrices précises et stables. Les tokenizers d'action existants se contentent de comprimer les trajectoires pour les reconstruire fidèlement, sans ancrer les codes discrets dans la sémantique du backbone visio-linguistique. Ce que démontre X-Tokenizer, c'est qu'il est possible de faire des tokens d'action des objets sémantiquement cohérents avec le reste du modèle, en ajoutant un alignement contrastif vers l'espace de représentation d'un modèle fondationnel et une prédiction de features visio-linguistiques sur la frame suivante. L'impact pour les intégrateurs et les chercheurs est direct : un tokenizer partagé, gelé et interchangeable entre embodiments réduit le coût de fine-tuning par robot tout en améliorant la robustesse sur les tâches multi-étapes. Du côté du contexte compétitif, la tokenisation d'actions est devenue un verrou clé dans la course aux VLA généralistes depuis 2024. FAST (Fourier Action Sequence Tokenizer, DeepMind) s'est imposé comme baseline de référence en représentation fréquentielle des trajectoires. Des approches comme ACT (Action Chunking with Transformers) ou GROOT ont montré des gains sur des tâches courtes, mais les tâches longues restent difficiles faute de supervision sémantique cohérente. X-Tokenizer se positionne explicitement comme une alternative à FAST sur ce point précis. À noter que les gains annoncés (+13,5 %, +8,25) sont mesurés sur des benchmarks spécifiques et sur une sélection de tâches ; la généralisation à des environnements industriels non structurés reste à démontrer. Aucune timeline de déploiement ni partenaire industriel n'est mentionné dans le papier, ce qui situe ce travail clairement dans la phase recherche, non dans celle du produit expédié.

IA physiqueOpinion
1 source
Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines
375arXiv cs.RO 

Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines

Une équipe de chercheurs a publié sur arXiv (identifiant arXiv:2606.16436v1) un framework baptisé V2P-Manip, conçu pour extraire des politiques de manipulation dextre directement à partir de vidéos monoculaires de démonstrations humaines. L'architecture propose un pipeline intégré en trois étapes : acquisition d'assets 3D, estimation de trajectoires, puis apprentissage de politique de manipulation. Pour réconcilier perception visuelle et contraintes physiques, les auteurs introduisent un processus de raffinement en deux étapes imposant à la fois un alignement spatial et une cohérence physique. Le système a été évalué sur les benchmarks TACO et OakInk, deux jeux de données de référence en manipulation dextre, et affiche un taux de réussite moyen supérieur à 75 % sur des tâches de manipulation synthétiques, avec une généralisation démontrée sur plusieurs morphologies de mains robotiques différentes. L'enjeu central que V2P-Manip cherche à résoudre est celui du coût de collecte des données d'entraînement : la télé-opération reste lente, coûteuse et difficile à standardiser à grande échelle. Utiliser des vidéos monoculaires standard, sans capteurs de profondeur ni mocap, représente un levier de scalabilité potentiellement majeur pour les fabricants d'effecteurs dextres et les laboratoires à budget limité. Le pipeline démontre aussi une transférabilité des "manipulation priors" entre embodiments différents, ce qui est un résultat non trivial. Il faut néanmoins noter que le taux de 75 % est mesuré sur des tâches synthétiques et que les vidéos utilisées en entrée sont des démonstrations humaines sélectionnées -- le real-world gap reste à quantifier sur du matériel réel déployé en conditions industrielles non contrôlées. La manipulation dextre constitue l'une des frontières les plus dures de la robotique, un domaine où des acteurs comme Dexterous Robotics, Shadow Robot (UK) ou Psyonic tentent d'atteindre la maturité produit. Côté recherche, les approches concurrentes s'appuient généralement sur la télé-opération (Pi-0 de Physical Intelligence, ACT, DROID dataset) ou sur des capteurs de profondeur calibrés. L'originalité de V2P-Manip est de contourner ces contraintes matérielles en exploitant uniquement la vision monoculaire. La validation reste pour l'instant confinée à des benchmarks académiques, et aucun déploiement ou partenariat industriel n'est annoncé dans cette version préliminaire.

RecherchePaper
1 source
Prise de décision bio-inspirée dans les essaims de robots soumis à des biais
376arXiv cs.RO 

Prise de décision bio-inspirée dans les essaims de robots soumis à des biais

Des chercheurs présentent dans un preprint arXiv (2509.07561, version 2, juin 2026) une étude comparative sur les mécanismes de prise de décision collective dans les essaims de robots minimalistes. Le scénario central : des robots individuels commettent fréquemment des erreurs de perception environnementale, mais le groupe doit néanmoins converger rapidement et fiablement vers la meilleure option parmi n alternatives discrètes. L'étude compare deux règles canoniques issues de la dynamique d'opinion observée dans les systèmes biologiques, le "direct-switch" (bascule directe) et la "cross-inhibition" (inhibition croisée), en les soumettant à des biais asociaux, c'est-à-dire des prédispositions individuelles indépendantes de l'interaction sociale. Les modèles de champ moyen existants sont généralisés pour intégrer ces perturbations. Les résultats ont une implication directe pour quiconque conçoit des systèmes multi-agents décentralisés : la cross-inhibition, mécanisme inspiré des colonies d'insectes et des populations neuronales, surpasse systématiquement le direct-switch en présence de biais. Là où le direct-switch se révèle performant en conditions idéales, il conduit à des blocages décisionnels ("decision deadlocks") dès que des biais individuels entrent en jeu. La cross-inhibition, elle, produit des décisions plus rapides, plus cohésives, plus précises et plus robustes sur une large gamme de conditions biaisées, et ce à des échelles croissantes d'essaims. C'est un résultat concret contre l'hypothèse que des règles simples suffisent sans distinction dans des environnements bruités. Cette recherche s'inscrit dans un corpus plus large sur la robotique en essaim (swarm robotics), domaine porté notamment par des équipes comme celles de Marco Dorigo (Université Libre de Bruxelles) et Vito Trianni (CNR-ISTC, Rome), avec des applications visées en surveillance environnementale, réponse aux catastrophes et logistique médicale. Sur le plan compétitif, les approches centralisées (flottes AMR coordonnées par un orchestrateur central, comme chez Exotec ou 6 River Systems) offrent des performances prévisibles mais restent fragiles à la perte de communication. L'enjeu ici est de prouver qu'une architecture entièrement distribuée peut égaler cette fiabilité sans infrastructure centralisée. La prochaine étape naturelle serait la validation expérimentale sur robots physiques, absente de cette version de l'étude.

UELes équipes européennes porteuses de ces travaux (Marco Dorigo, ULB Bruxelles ; Vito Trianni, CNR-ISTC Rome) positionnent la recherche EU en tête sur la robotique en essaim décentralisée, avec des retombées potentielles pour les applications de logistique et de réponse aux catastrophes en Europe.

RecherchePaper
1 source
Contrôle EMG haute densité bimanuel pour la manipulation mobile à domicile par des personnes tétraplégiques
377arXiv cs.RO 

Contrôle EMG haute densité bimanuel pour la manipulation mobile à domicile par des personnes tétraplégiques

Des chercheurs ont publié (arXiv:2602.02773, mise à jour juin 2026) les résultats d'un système permettant à des utilisateurs atteints de lésions cervicales de la moelle épinière (cSCI, quadriplégie) de piloter un manipulateur mobile domestique via des manchettes électromyographiques haute densité (HDEMG). Le dispositif consiste en deux manchettes textiles intégrées, portées sur les deux avant-bras, qui captent l'activité neuromotrice résiduelle de membres cliniquement paralysés et la convertissent en commandes gestuelles temps réel pour le robot. Sur deux participants avec cSCI, le système atteint un taux de classification des intentions motrices allant jusqu'à 98,0 %. L'étude s'est déroulée sur douze jours en conditions réelles, dans le domicile même des participants, pour des tâches quotidiennes de type ADL (activities of daily living). Ce résultat est significatif pour plusieurs raisons. D'abord, il démontre qu'une interface de contrôle non invasive et portable peut extraire un signal moteur exploitable depuis des membres dont la paralysie est établie cliniquement, ce qui remet en cause l'hypothèse selon laquelle les interfaces robustes nécessitent obligatoirement une implantation chirurgicale (BCI intracrânien) ou des capacités motrices résiduelles importantes. Ensuite, l'architecture d'autonomie partagée, combinant vision, langage naturel et planification de mouvement, réduit la charge cognitive de l'opérateur pour les tâches de navigation, qui sont habituellement les plus pénibles dans un environnement domestique non structuré. Pour un intégrateur ou un décideur industriel, cela valide un paradigme de téléopération augmentée où l'IA complète les intentions de l'utilisateur sans les supplanter. Ce travail s'inscrit dans un champ de recherche qui, depuis une décennie, explore l'EMG de surface pour le contrôle prothétique et robotique, mais qui peinait à franchir le cap du test en laboratoire vers un déploiement prolongé hors-lab. Côté concurrence, des acteurs comme Aescape, Wandercraft (exosquelettes) ou des programmes DARPA/NSF travaillent sur des interfaces haptiques et neurales, mais peu ont publié des études en domicile réel sur plusieurs jours. Les prochaines étapes probables incluent l'élargissement de la cohorte au-delà de n=2, l'intégration avec des plateformes commerciales comme le Stretch de Hello Robot ou le spot-arm de Boston Dynamics, et l'évaluation des effets d'adaptation sur le long terme.

UEImpact indirect pour les acteurs français comme Wandercraft qui développent des interfaces neuromotrices pour exosquelettes, mais l'étude provient de chercheurs non identifiés comme européens et ne cible pas le marché UE.

RecherchePaper
1 source
Maquette low-cost pour simuler la découpe laser robotique dans le démantèlement nucléaire
378arXiv cs.RO 

Maquette low-cost pour simuler la découpe laser robotique dans le démantèlement nucléaire

Des chercheurs ont publié sur arXiv (ref. 2605.08947) un banc d'essai bas coût destiné à simuler la découpe laser de conteneurs dans le cadre du démantèlement nucléaire. Le dispositif se compose d'une table à trois axes supportant un conteneur cuboïde dont les faces sont recouvertes d'un matériau sensible aux ultraviolets, d'un manipulateur série à six degrés de liberté (6-DOF) portant une torche UV qui joue le rôle du laser, et d'un système de vision basé sur des caméras et des marqueurs fiduciels. La précision de suivi de trajectoire atteint 3,9 mm en moyenne (écart-type 2,5 mm) lorsque la pose complète de l'effecteur est contrôlée, et 2,4 mm (écart-type 1,3 mm) lorsque seul le faisceau UV est commandé, ce qui réduit le problème à quatre degrés de liberté au lieu de six. L'intérêt technique central de cette approche réside dans le contrôleur de mouvement adaptatif en espace des tâches avec contraintes, qui compense les incertitudes paramétriques sans nécessiter de calibration préalable du système. Autrement dit, un intégrateur peut déployer ce type de cellule robotique sans phase de mise au point métrologique coûteuse, ce qui est décisif en milieu nucléaire où l'accès humain est limité et où toute intervention de recalibrage génère des doses supplémentaires. Le contrôleur gère également de façon réactive l'évitement de collisions avec les obstacles géométriques de l'environnement, une capacité critique dans des enceintes encombrées. La réduction volontaire à 4-DOF pour le suivi du faisceau, plutôt que le contrôle de la pose complète 6-DOF, constitue un choix de conception qui améliore la précision de 38 % selon les chiffres rapportés, bien que les conditions expérimentales exactes ne soient pas détaillées dans le résumé. Le démantèlement nucléaire représente un des rares secteurs où la robotique de manipulation est soumise à des contraintes simultanées de précision millimétrique, d'autonomie réactive et d'impossibilité de présence humaine prolongée, ce qui en fait un terrain d'évaluation exigeant pour les architectures de contrôle adaptatif. Ce type de maquette bas coût s'inscrit dans une tendance plus large de simulation physique abordable avant déploiement en environnement réel radioactif, en complément des approches sim-to-real purement numériques. Parmi les acteurs actifs sur la robotique pour le nucléaire en Europe, on peut citer les travaux menés autour du CEA-List en France ainsi que des projets européens comme ROBOMINERS ou les initiatives de l'ITER Organization. Les prochaines étapes naturelles seraient la validation avec un vrai laser de découpe et des matériaux représentatifs des conteneurs de déchets, ainsi que des tests en conditions d'irradiation pour évaluer la robustesse de l'électronique embarquée.

UEL'approche de contrôle adaptatif sans calibration préalable est directement pertinente pour les programmes de démantèlement nucléaire européens portés par le CEA-List et l'ITER Organization, où chaque intervention humaine de recalibrage génère des doses supplémentaires.

RecherchePaper
1 source
GATO : optimisation de trajectoire accélérée par GPU et par lots pour la commande prédictive par modèle embarquée et évolutive
379arXiv cs.RO 

GATO : optimisation de trajectoire accélérée par GPU et par lots pour la commande prédictive par modèle embarquée et évolutive

Une équipe de chercheurs a publié sur arXiv (identifiant 2510.07625v2) GATO, un solveur open source conçu pour accélérer massivement les calculs de trajectoire en temps réel dans les systèmes de contrôle prédictif par modèle (MPC). Concrètement, GATO cible le régime de lots modérés, soit des dizaines à quelques centaines de problèmes d'optimisation de trajectoires non linéaires résolus simultanément à chaque cycle de contrôle. Les benchmarks sur simulateur affichent des gains de 18 à 21 fois par rapport aux solveurs CPU de référence, et de 1,4 à 16 fois par rapport aux approches GPU existantes selon la taille des lots. Le solveur a été validé sur matériel réel via un bras manipulateur industriel, ce qui dépasse le stade de la démonstration purement simulée. Ce résultat comble un angle mort persistant dans l'écosystème MPC pour la robotique : les approches GPU actuelles parallélisent efficacement une seule résolution, ou traitent de très grands lots à des cadences sous temps réel, mais aucune ne couvre bien le régime intermédiaire où opèrent de nombreuses applications avancées, notamment la planification de mouvement pour bras industriels, la locomotion d'humanoïdes ou la navigation d'AMR en environnement dynamique. GATO co-conçoit l'algorithme, le logiciel et l'architecture matérielle en exploitant le parallélisme à trois niveaux : bloc, warp et thread CUDA. Les études de cas montrent une meilleure rejection des perturbations et une convergence accélérée, deux métriques directement pertinentes pour les intégrateurs industriels et les équipes de contrôle embarqué. Le MPC est un standard de facto en robotique et en contrôle de procédés, mais son coût computationnel a longtemps limité son usage aux systèmes à dynamique lente ou aux architectures avec CPU puissants dédiés. Les GPU embarqués, désormais présents sur les plateformes robotiques modernes (Jetson, Orin), rendent ce type de co-design pertinent pour le déploiement edge. Aucun acteur industriel nommé n'est associé à ce travail, qui reste pour l'instant une contribution académique ouverte, sans annonce de commercialisation ni partenariat industriel déclaré. La mise à disposition en open source vise à favoriser la reproductibilité et l'adoption par les équipes de recherche et développement, avec un potentiel d'intégration dans des frameworks MPC existants comme Crocoddyl ou ALTRO.

UECrocoddyl, l'un des frameworks MPC cibles d'intégration mentionnés, est développé au LAAS-CNRS (Toulouse, France), ce qui rend GATO directement pertinent pour les équipes de recherche françaises en contrôle de robots.

RecherchePaper
1 source
Reconstruction ou sémantique ? Ce qui rend un espace latent utile pour les modèles du monde en robotique
380arXiv cs.RO 

Reconstruction ou sémantique ? Ce qui rend un espace latent utile pour les modèles du monde en robotique

Une étude soumise sur arXiv le 8 mai 2025 (arXiv:2605.06388) remet en question le choix dominant des espaces latents dans les modèles de monde pour la robotique. Les auteurs comparent six encodeurs, répartis en deux familles, selon un protocole d'évaluation commun sur le dataset BridgeV2, référence de manipulation robotique généraliste. Les encodeurs de reconstruction testés sont VAE (standard actuel) et Cosmos (NVIDIA) ; les encodeurs sémantiques incluent V-JEPA 2.1 (Meta), Web-DINO et SigLIP 2 (Google). Le cadre évalué est celui des modèles de diffusion latente conditionnés par l'action (LDM), utilisés comme proxy de simulation pour tester des politiques de contrôle robot sans déploiement physique. L'évaluation repose sur trois axes : fidélité visuelle pixel-level, performance en planification et évaluation de politiques en aval, et qualité intrinsèque des représentations latentes. Les résultats invalident une hypothèse implicite courante dans le domaine : une bonne reconstruction pixel ne suffit pas à produire un bon modèle de monde opérationnel. VAE et Cosmos atteignent les meilleurs scores de fidélité visuelle, mais V-JEPA 2.1 domine sur l'axe le plus critique, la performance des politiques, tandis que Web-DINO et SigLIP 2 excellent sur les deux axes restants, et ce à toutes les échelles de modèles testées. Pour un intégrateur ou un labo qui construit des pipelines sim-to-real, cela implique que le choix de l'encodeur dans la stack LDM n'est pas un détail d'implémentation : il conditionne directement la qualité des politiques apprises. La fidélité visuelle, souvent retenue comme métrique de validation principale, s'avère un indicateur trompeur du potentiel d'un modèle de monde pour le contrôle robotique. Ce travail s'inscrit dans une course de fond autour des modèles de monde pour la robotique, impliquant des acteurs comme Physical Intelligence (pi-0), Figure AI et des équipes académiques autour des RoboVLMs. L'adoption des LDMs comme infrastructure d'évaluation de politiques s'est accélérée depuis 2023 avec l'essor des VLAs (Vision-Language-Action models). Le VAE reste l'encodeur par défaut dans la majorité des implémentations ouvertes, héritage direct des pipelines de diffusion image (Stable Diffusion, LDM de Rombach et al., 2022). Ce preprint, non encore évalué par des pairs, plaide pour un pivot vers les encodeurs à représentations sémantiques, une direction qui converge avec les travaux de Meta sur V-JEPA 2 et de Google sur SigLIP. Les étapes suivantes naturelles incluraient une validation sur des datasets robotiques plus diversifiés et des expériences en déploiement physique réel pour confirmer le transfert sim-to-real.

RechercheOpinion
1 source
Apprendre à oublier : mémoire épisodique hiérarchique pour le déploiement à long terme des robots
381arXiv cs.RO 

Apprendre à oublier : mémoire épisodique hiérarchique pour le déploiement à long terme des robots

Des chercheurs ont publié H²-EMV, un cadre logiciel permettant aux robots humanoïdes de gérer sélectivement leur mémoire épisodique sur le long terme. Le problème adressé est concret : lorsqu'un utilisateur demande « Où as-tu mis mes clés ? » ou « Pourquoi la tâche a-t-elle échoué ? », le robot doit interroger un historique d'expériences captées en continu depuis des capteurs multimodaux. Sans filtrage, ce volume dépasse rapidement les capacités de stockage et rend les requêtes en temps réel impraticables. H²-EMV construit une mémoire hiérarchique de manière incrémentale, applique un oubli sélectif via un modèle de langage qui évalue la pertinence de chaque événement selon des règles en langage naturel, puis affine ces règles à partir des retours utilisateur. Testé sur des simulations de tâches domestiques et sur 20,5 heures d'enregistrements réels collectés avec le robot humanoïde ARMAR-7, le système réduit la taille mémoire de 45 % et le temps de calcul des requêtes de 35 %, tout en maintenant la précision des réponses. En deuxième session, cette précision progresse de 70 % grâce à l'adaptation aux priorités individuelles de l'utilisateur. Pour les déploiements longs de robots de service, ce résultat lève un frein non résolu. La mémoire épisodique est un point de friction majeur : un robot qui efface tout entre deux sessions est inutilisable sur la durée, mais stocker sans discrimination devient ingérable sur plusieurs semaines ou plusieurs mois. H²-EMV démontre qu'un oubli structuré et appris ne dégrade pas les performances de question-réponse, et que celles-ci s'améliorent avec l'usage, propriété rare dans les systèmes robotiques actuels. Pour les intégrateurs et les décideurs B2B, cela ouvre la voie à des assistants humanoïdes capables de dialogue contextuel persistant sans infrastructure de stockage surdimensionnée, condition nécessaire à un déploiement viable en environnement réel. ARMAR-7 est un humanoïde développé à l'Institut für Anthropomatik und Robotik du Karlsruhe Institute of Technology (KIT), en Allemagne, dont les recherches en interaction homme-robot figurent parmi les plus avancées en Europe. La gestion de mémoire long terme en robotique est un champ actif : des approches comme MemoryBank ou les bases vectorielles couplées à des grands modèles de langage ciblent des problèmes comparables, mais rarement sur des horizons temporels aussi longs ni sur des données réelles aussi volumineuses. L'article (arXiv:2604.11306v2) reste un preprint non encore évalué en conférence à comité de lecture ; les résultats annoncés attendent une confirmation indépendante. Les prochaines étapes naturelles sont une validation sur d'autres plateformes humanoïdes et des horizons de déploiement encore plus étendus pour confirmer la stabilité de l'apprentissage des règles d'oubli.

UEH²-EMV est développé et validé sur ARMAR-7, humanoïde du KIT (Allemagne), positionnant un laboratoire européen à la pointe de la gestion mémoire long terme pour robots de service.

RecherchePaper
1 source
Contrôle à sûreté critique sous observabilité partielle : POMDP d'atteinte-évitement et contrôle dans l'espace des croyances
382arXiv cs.RO 

Contrôle à sûreté critique sous observabilité partielle : POMDP d'atteinte-évitement et contrôle dans l'espace des croyances

Des chercheurs ont publié sur arXiv (référence 2503.10572v2) une architecture de contrôle en temps réel pour robots évoluant dans des environnements partiellement observables, c'est-à-dire des situations où le robot ne perçoit qu'une fraction de son état réel. Le problème traité est celui des POMDP reach-avoid (Partially Observable Markov Decision Processes) : comment guider un robot vers un objectif tout en évitant des obstacles, quand ses capteurs sont bruités ou incomplets. L'approche proposée découple ce problème en trois composants modulaires opérant dans l'espace des croyances (belief space), soit l'ensemble des distributions de probabilité sur les états possibles. Les auteurs introduisent deux outils formels : les Belief Control Lyapunov Functions (BCLFs), qui formalisent la collecte active d'information comme un problème de convergence Lyapunov, et les Belief Control Barrier Functions (BCBFs), qui fournissent des garanties de sécurité probabilistes à horizon fini via la prédiction conforme. La synthèse de commande se réduit à des programmes quadratiques légers, résolus en temps réel même pour des représentations de croyances non gaussiennes de dimension supérieure à 10 000. Les expériences couvrent la simulation et une plateforme réelle de robotique spatiale. L'apport principal est architectural : plutôt que de tout résoudre dans un arbre de recherche unifié, ce qui souffre de conflits entre échelles de temps (sécurité immédiate vs. planification à long terme), l'architecture en couches permet à chaque composant de fonctionner à son propre rythme. Pour les intégrateurs robotiques et les équipes R&D, c'est une avancée concrète sur le sim-to-real gap dans des contextes à observabilité partielle. La garantie probabiliste de sécurité via prédiction conforme est particulièrement notable : elle s'applique sans hypothèse gaussienne, ce qui élargit le domaine d'application à des scénarios industriels réels où les distributions d'incertitude sont complexes. Les performances annoncées sur la plateforme spatiale suggèrent une applicabilité au-delà du laboratoire, même si les conditions exactes des tests restent à détailler. L'article s'inscrit dans un courant actif de recherche sur le contrôle certifié (Control Barrier Functions, Control Lyapunov Functions) appliqué à la prise de décision probabiliste. Les travaux antérieurs comme DESPOT, POMCP ou les POMDP contraints (C-POMDP) tentaient d'intégrer sécurité et planification dans un seul solveur, souvent au prix de temps de calcul prohibitifs. L'utilisation de la prédiction conforme pour les garanties de sécurité rapproche cette ligne de travail des approches émergentes en apprentissage machine certifié. La plateforme spatiale mentionnée évoque des applications dans l'inspection et la maintenance orbitale, un secteur où acteurs comme Airbus Defence, Thales Alenia Space ou des startups comme ClearSpace développent des capacités d'opération autonome. Les prochaines étapes naturelles seraient une validation sur des robots mobiles ou manipulateurs en environnement industriel, et une publication des hyperparamètres permettant la reproductibilité.

UELes méthodes de contrôle certifié pour observabilité partielle sont directement applicables aux projets d'opération autonome orbitale développés par des acteurs européens comme Airbus Defence, Thales Alenia Space et ClearSpace.

RecherchePaper
1 source
Générer du réalisme à partir de simulation : transfert vidéo efficace pour l'augmentation de données VLA
383arXiv cs.RO 

Générer du réalisme à partir de simulation : transfert vidéo efficace pour l'augmentation de données VLA

Début mai 2026, une équipe de chercheurs a publié (arXiv:2605.02757) un framework d'augmentation de données pour les modèles vision-language-action (VLA), visant le fossé visuel persistant entre simulation et données réelles. Le pipeline, nommé "Seeing Realism from Simulation", convertit des vidéos simulées en séquences d'apparence réaliste via trois étapes: segmentation sémantique vidéo pour extraire des conditions structurées, réécriture de légendes pour diversifier les environnements, puis application d'un modèle de transfert vidéo conditionnel. Pour rendre l'approche scalable, les auteurs introduisent un mécanisme de réutilisation de features de diffusion (recycler les tokens vidéo entre timesteps adjacents) et un coreset sampling qui sélectionne un sous-ensemble compact sous contrainte computationnelle. Sur les benchmarks Robotwin 2.0 et LIBERO-Plus, le framework améliore RDT-1B de 8% et le modèle pi-0 de Physical Intelligence de 5,1%. Le code est disponible en open source sur GitHub. Ces gains pointent un goulot d'étranglement réel de l'industrie: collecter des vidéos de manipulation réelles à grande échelle est coûteux et lent, alors que la simulation offre une scalabilité quasi-illimitée mais dégrade systématiquement les performances en déploiement. Si l'on peut transformer des données simulées en données visuellement réalistes en préservant les labels d'action, on dispose d'un levier de scaling à faible coût. Le fait que pi-0, déjà entraîné sur des millions de trajectoires réelles, gagne encore 5,1% indique une complémentarité avec les pipelines de collecte existants plutôt qu'une substitution. Cela dit, les auteurs ne publient aucun chiffre concret sur la réduction du temps de génération, ce qui laisse ouverte la question de viabilité à l'échelle industrielle. Ce travail s'inscrit dans la course aux modèles fondation pour la robotique, où Physical Intelligence (pi-0, pi-0.5) et les équipes derrière RDT-1B font figure de références. LIBERO et Robotwin 2.0 sont devenus les benchmarks standard pour comparer ces architectures VLA en conditions contrôlées. Contrairement aux approches de domain randomization ou au style transfer image par image, l'utilisation d'un modèle vidéo diffusion-based préserve la cohérence temporelle, critique pour les tâches de manipulation multi-étapes. Les prochaines étapes naturelles incluent l'extension à des environnements moins structurés et des horizons de tâche plus longs, là où le fossé sim-to-real reste le plus prononcé et où la diversité des légendes réécrites sera la plus déterminante.

IA physiqueOpinion
1 source
Lecture rapide et extensible des capteurs de mains dextériques par multiplexage à registre à décalage
384arXiv cs.RO 

Lecture rapide et extensible des capteurs de mains dextériques par multiplexage à registre à décalage

Une équipe de chercheurs a publié début mai 2025 sur arXiv (2605.01434) une architecture de lecture de capteurs analogiques scalable pour mains robotiques dextres. Le système repose sur un registre à décalage série-vers-parallèle (SIPO) qui permet de connecter des modules de capteurs hétérogènes via seulement trois lignes de signal entre chaque module. La validation porte sur une main robotique à tendons équipée de 16 modules articulaires et d'un module tactile à quatre canaux, soit 20 canaux échantillonnés à 1 kHz en mode plein balayage, avec une stabilité confirmée jusqu'à 1,5 kHz. Les capteurs articulaires atteignent une erreur maximale de pente (APE) de 0,446 % et une estimation angulaire inférieure au degré. Pour la perception tactile, des modèles LSTM déployés en inférence temps réel à 1 kHz obtiennent un RMSE de 0,125 N pour l'estimation de force et 93,4 % de précision pour la classification en cinq catégories de localisation de contact. L'apport principal est la dissociation entre nombre de capteurs, complexité du câblage et bande passante d'échantillonnage, un compromis qui freine depuis longtemps le développement de mains densément captées. Limiter l'interconnexion à trois fils réduit la complexité mécanique et électrique de façon significative, un point critique pour les intégrations en espace contraint. La démonstration à 1 kHz sur 20 canaux simultanés avec inférence LSTM embarquée prouve que la chaîne capteur-modèle peut tenir le rythme d'une boucle de contrôle temps réel sans matériel dédié coûteux. Les performances tactiles sont solides sur banc de test, mais l'article ne précise pas les conditions en manipulation libre, un élément à vérifier avant toute extrapolation industrielle. La dextérité robotique reste un verrou majeur pour la manipulation non structurée, et la densification des capteurs dans les mains mécaniques est un axe actif chez des acteurs comme Sanctuary AI, Figure, Apptronik ou 1X, dont les humanoïdes commerciaux peinent encore à atteindre la densité sensorielle des prototypes académiques. L'architecture SIPO présentée est suffisamment générique pour s'adapter à d'autres géométries de main ou d'autres types de capteurs comme la pression, la température ou la proximité, et constitue une base crédible pour des intégrations sur plateformes humanoïdes en cours de commercialisation. Du côté européen, ni Wandercraft ni Enchanted Tools n'ont publié d'approches comparables pour les effecteurs distaux, laissant ce créneau ouvert à de prochains travaux.

UEL'architecture SIPO publiée en open access sur arXiv constitue une base technique directement exploitable pour les équipes R&D européennes travaillant sur les effecteurs distaux d'humanoïdes, un créneau où Wandercraft et Enchanted Tools n'ont pas encore publié d'approches comparables.

RecherchePaper
1 source
VLA-ATTC : calcul adaptatif au moment du test pour les modèles VLA avec un critique d'action relative
385arXiv cs.RO 

VLA-ATTC : calcul adaptatif au moment du test pour les modèles VLA avec un critique d'action relative

Une équipe de chercheurs a publié en mai 2026, via arXiv (2605.01194), VLA-ATTC, un framework visant à doter les modèles Vision-Language-Action (VLA) d'un mécanisme de délibération adaptatif à l'inférence. Les VLA, qui couplent perception visuelle, langage et génération d'actions pour piloter des robots manipulateurs, reposent jusqu'ici sur un mode d'exécution réflexif : rapide, mais aveugle face à l'ambiguïté. VLA-ATTC introduit un "embrayage cognitif" basé sur l'incertitude : lorsque le modèle détecte une situation complexe, il bascule vers une phase de calcul délibératif (test-time compute, TTC) dans laquelle un composant inédit, le Relative Action Critic (RAC), évalue des candidats d'actions par comparaisons par paires plutôt que par estimation absolue de valeur. Un pipeline automatisé génère les paires de préférence sans annotation manuelle. Sur le benchmark LIBERO-LONG, VLA-ATTC réduit le taux d'échec du modèle SOTA PI0.5 de Physical Intelligence de plus de 50 %. Le code et les poids seront publiés en open source. Ce résultat cible directement le "demo-to-reality gap" : les VLA actuels performent bien en conditions contrôlées mais échouent sur des tâches longues et ambiguës. Diviser par deux le taux d'échec sur LIBERO-LONG, un benchmark de manipulation séquentielle longue portée, sans retrainer le modèle de base est un gain concret pour les intégrateurs industriels. Le choix du RAC est également instructif : abandonner l'estimation de valeur absolue, instable en pratique, au profit d'un mécanisme relatif plus simple à apprendre suggère que la fiabilité des VLA peut progresser via du compute supplémentaire à l'inférence plutôt que par des cycles de fine-tuning coûteux. Les VLA constituent la ligne de front actuelle en robotique de manipulation. Pi-0 et Pi-0.5 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA (UC Berkeley) ont établi une course à la généralisation zero-shot, mais partagent le même défaut structurel : une inférence déterministe et non délibérative. L'approche TTC appliquée aux VLA s'inscrit dans un mouvement plus large, déjà visible chez les LLM avec o1, o3 et DeepSeek R1, qui cherche à "acheter" de la qualité de décision via du compute d'inférence supplémentaire. Pour les déploiements industriels en temps réel, la question restante sera de quantifier le surcoût de latence du mode TTC dans des environnements contraints, comme les lignes d'assemblage ou les cellules de picking à cadence élevée.

UEL'open-source annoncé pourrait bénéficier aux équipes R&D et intégrateurs européens travaillant sur la manipulation VLA, mais aucune institution ou entreprise FR/EU n'est directement impliquée.

IA physiqueOpinion
1 source
Génération de démarche adaptative pour exosquelettes multi-terrains via des primitives de mouvement à noyau contraint
386arXiv cs.RO 

Génération de démarche adaptative pour exosquelettes multi-terrains via des primitives de mouvement à noyau contraint

Des chercheurs ont publié le 5 mai 2026 sur arXiv (preprint, non encore évalué par les pairs) un framework baptisé AGG (Adaptive Gait Generation), basé sur les Kernelized Movement Primitives (KMP), conçu pour permettre aux exosquelettes de membres inférieurs (Lower Limb Exoskeletons, LLEs) de marcher sur plusieurs types de terrains intérieurs en temps réel. Le système apprend une représentation probabiliste de la marche humaine à partir d'un nombre limité de démonstrations, dans les espaces articulaires et cartésiens, pour garantir la cohérence physiologique et la faisabilité cinématique. Une caméra RGB-D embarquée extrait des informations environnementales qui sont injectées comme contraintes linéaires dans un problème d'optimisation via des via-points. La méthode a été validée en simulation sur quatre scénarios, marche à plat, pentes, escaliers et franchissement d'obstacles, puis testée physiquement sur un LLE commercial dans des conditions réelles. L'enjeu principal est de combler le fossé entre laboratoire et terrain pour les exosquelettes de rééducation et d'assistance, qui restent aujourd'hui cantonnés aux surfaces planes et uniformes. L'approche KMP permet d'adapter la trajectoire de marche sans recalibration manuelle, ce qui représente une avancée opérationnelle concrète pour les cliniciens et les intégrateurs industriels. La capacité à générer des trajectoires cohérentes à partir de peu de démonstrations humaines réduit significativement le coût de déploiement, un verrou majeur pour la commercialisation. Les résultats sur le LLE commercial valident le passage du sim-to-real, même si la robustesse à long terme et la diversité des profils utilisateurs restent à démontrer sur des cohortes plus larges. Les exosquelettes de membres inférieurs sont un segment en pleine structuration : des acteurs comme Wandercraft (Paris), avec son Atalante X, ou Ekso Bionics et ReWalk côté américain, s'affrontent sur la question de l'autonomie locomotrice en environnement non contrôlé. La plupart des systèmes existants imposent encore une supervision clinique ou des réglages manuels par terrain. Ce travail s'inscrit dans une vague de recherches cherchant à coupler perception embarquée et planification adaptive, un axe également exploré par des équipes à l'ETH Zurich et au MIT. Les prochaines étapes naturelles seraient une validation sur des populations de patients avec des pathologies variées et une intégration dans un pipeline de contrôle adaptatif complet incluant la détection d'intention de l'utilisateur.

UEWandercraft (Paris) et son Atalante X sont directement concernés par cette avancée, qui ouvre la voie à une autonomie locomotrice en environnements non contrôlés sans recalibration manuelle, un verrou clé pour la commercialisation clinique en Europe.

ExosquelettesPaper
1 source
VILAS : une architecture bas coût intégrant un modèle VLA avec préhension souple pour la manipulation robotique
387arXiv cs.RO 

VILAS : une architecture bas coût intégrant un modèle VLA avec préhension souple pour la manipulation robotique

VILAS (arXiv 2605.02037) est une plateforme de manipulation robotique modulaire à faible coût conçue pour déployer des modèles vision-language-action (VLA) sur du matériel accessible. Le système associe un bras collaboratif Fairino FR5, un préhenseur électrique Jodell RG52-50 et un module de perception à deux caméras, coordonnés via une architecture ZMQ unifiant téleopération, collecte de données et exécution de politiques dans un pipeline unique. Pour saisir des objets fragiles sans capteur de force dédié, les auteurs ont développé une extension de préhenseur souple fondée sur le kirigami, une technique de découpe structurée qui induit une déformation contrôlée sous charge compressive, garantissant un contact doux et répétable. Trois modèles VLA ont été comparés sur cette plateforme : pi0 et pi0.5 de Physical Intelligence, et GR00T N1.6 de NVIDIA, chacun fine-tuné depuis des checkpoints publics sur un jeu de démonstrations identique collecté via le pipeline de téleopération. La tâche de validation retenue est la saisie de raisins, cas représentatif de la manipulation d'objets déformables et fragiles. Ce préprint de recherche démontre que des politiques VLA compétitives peuvent être entraînées et déployées sur du matériel grand public, sans infrastructure coûteuse ni retour d'effort. Pour les intégrateurs et les équipes de R&D à budget contraint, c'est un signal clair : le goulot d'étranglement n'est plus le hardware mais le pipeline de données et le fine-tuning. La comparaison des trois modèles dans des conditions strictement identiques (même bras, même dataset, même tâche) constitue un benchmark pratique rare, la littérature évaluant généralement les VLA sur des plateformes propriétaires difficilement reproductibles. Le fait que GR00T N1.6, conçu initialement pour les humanoïdes de NVIDIA, soit ici testé sur un cobot bas de gamme éclaire aussi la portabilité réelle de ces modèles généralistes, au-delà des démonstrations sur hardware maison. Ce travail s'inscrit dans le mouvement de démocratisation de la robotique apprenante porté notamment par LeRobot de Hugging Face ou les travaux autour d'ACT (Action Chunking with Transformers). Le Fairino FR5 se positionne dans la gamme des cobots abordables, face au Lite6 d'UFactory ou au CR5 de Dobot. Pi0 et pi0.5 sont issus de Physical Intelligence (Pi), startup californienne fondée en 2023 et financée entre autres par Bezos Expeditions, tandis que GR00T N1.6 est le modèle de fondation robotique de NVIDIA présenté en 2025 pour ses partenaires humanoïdes. Les suites naturelles de cette plateforme incluent l'extension à des tâches bi-manuelles, l'élargissement du catalogue d'objets, et potentiellement la publication du dataset de démonstrations pour faciliter la reproductibilité.

IA physiqueOpinion
1 source
Un jumeau numérique haute-fidélité pour la manipulation robotique basé sur le splattage gaussien 3D
388arXiv cs.RO 

Un jumeau numérique haute-fidélité pour la manipulation robotique basé sur le splattage gaussien 3D

Une équipe de chercheurs a publié sur arXiv (identifiant 2601.03200, version 2) un cadre logiciel permettant de construire des jumeaux numériques haute fidélité pour la manipulation robotique en quelques minutes à partir d'un ensemble réduit d'images RGB. Le système repose sur la technique de reconstruction 3D Gaussian Splatting (3DGS), qui modélise une scène comme un nuage de gaussiennes colorées et orientées, offrant un rendu photoréaliste nettement plus rapide que les approches NeRF classiques. À cela s'ajoute une fusion sémantique tenant compte de la visibilité des objets, pour un étiquetage précis des éléments de la scène en 3D, ainsi qu'une méthode de conversion géométrique par filtrage produisant des maillages prêts pour la détection de collisions. L'ensemble s'intègre directement dans la chaîne Unity-ROS2-MoveIt et a été validé expérimentalement sur un bras Franka Emika Panda effectuant des tâches de pick-and-place dans des environnements non structurés. L'intérêt industriel de cette approche réside dans sa capacité à compresser drastiquement le temps de mise en place d'un pipeline sim-to-real : là où la création d'un jumeau numérique exploitable pour la planification de mouvements demande habituellement des heures de scan, de nettoyage de maillage et de paramétrage de collision, le framework proposé vise à produire un environnement simulé cohérent géométriquement et sémantiquement en quelques minutes. Pour un intégrateur ou un responsable de ligne industrielle, cela signifie un déploiement potentiellement plus rapide de cellules robotisées dans des contextes où la scène évolue fréquemment. Le papier démontre aussi que la qualité géométrique des jumeaux 3DGS, souvent critiquée pour ses artefacts aux bords d'objets, peut être suffisante pour piloter une manipulation robuste, ce qui contredit partiellement l'idée que ces reconstructions restent cantonnées à la visualisation. Le contexte est celui d'une compétition intense autour de la représentation de scènes pour la robotique. Le 3DGS, introduit par Kerbl et al. en 2023, s'est imposé comme alternative aux NeRF grâce à sa vitesse de rendu en temps réel, et plusieurs groupes l'ont depuis adapté à la robotique (SplaTAM, Gaussian Grouping, GaussianWorld). Ce travail se distingue par son focus applicatif sur le pipeline complet perception-planification-exécution, en ciblant explicitement MoveIt et ROS2, les standards de facto en robotique industrielle open-source. Il s'agit néanmoins d'un preprint sans revue par les pairs, et les résultats de pick-and-place sont présentés sur un seul type de bras dans un environnement de laboratoire contrôlé, ce qui laisse ouverte la question de la robustesse à plus grande échelle.

UELe framework est validé sur un bras Franka Emika Panda (fabricant allemand) et s'intègre nativement avec ROS2/MoveIt, standards ouverts très utilisés par les intégrateurs industriels européens, ce qui le rend directement pertinent pour réduire les délais de déploiement de cellules robotisées en Europe.

RecherchePaper
1 source
Simulation de l'expérience sensorimotrice du nourrisson par transfert de mouvements vers des humanoïdes
389arXiv cs.RO 

Simulation de l'expérience sensorimotrice du nourrisson par transfert de mouvements vers des humanoïdes

Une équipe de recherche a déposé sur arXiv (référence 2604.27583) un framework permettant de simuler l'expérience sensorimotrice multimodale de nourrissons en retransférant leurs mouvements sur des robots humanoïdes physiques et virtuels. À partir d'une seule vidéo, la méthode extrait le squelette de l'enfant et estime sa pose 3D complète image par image, puis mappe ces trajectoires sur quatre plateformes : le robot physique iCub et trois simulateurs virtuels, pyCub, EMFANT et MIMo. La relecture de ces mouvements retransférés génère des flux multisensoriels synthétiques couvrant la proprioception (articulations et muscles), le sens du toucher et la vision. Pour l'embodiment le mieux adapté morphologiquement, la précision de retargeting atteint moins d'un centimètre, ce qui permet une annotation automatisée fine des comportements moteurs. L'intérêt de ce travail dépasse la robotique développementale stricte. La plupart des approches de motion retargeting existantes se limitent à reproduire la cinématique, ignorant la richesse sensorielle associée au mouvement humain. Ce framework produit des streams proprioceptifs et tactiles synchronisés avec la vision, un type de donnée rare susceptible d'alimenter l'entraînement de modèles VLA (Vision-Language-Action) qui peinent encore à généraliser hors du domaine simulé. Sur le plan médical, la capacité à annoter automatiquement des comportements moteurs depuis une simple vidéo, puis à les comparer quantitativement à un avatar robot, ouvre une voie crédible pour la détection précoce de troubles du neurodéveloppement, autisme, paralysie cérébrale, sans recourir à une instrumentation directe de l'enfant. Le robot iCub, développé par l'IIT (Istituto Italiano di Tecnologia, Gênes) depuis 2004 et déployé dans plus de 30 laboratoires mondiaux, constitue la plateforme physique de référence de l'étude, sa morphologie proche d'un enfant de 3-4 ans en faisant un candidat naturel. La précision sub-centimétrique annoncée vaut pour les séquences les mieux alignées morphologiquement : les auteurs ne publient pas de métriques globales sur corpus complet, ce qui invite à une lecture prudente de la performance générale. Dans l'espace concurrent, des équipes comme Meta AI (SAPIENS) ou ETH Zurich (SMPL-X) travaillent sur la reconstruction posturale dense, mais sans l'orientation développementale ni la multimodalité sensorielle de cette approche. Le code est publié en open source sur GitHub sous le dépôt ctu-vras/motion-retargeting.

UEL'IIT (Gênes, Italie), créateur de la plateforme iCub utilisée comme référence physique de l'étude, consolide le positionnement européen dans la robotique développementale et la génération de données multimodales pour l'entraînement de modèles VLA.

💬 Ce qui m'a accroché, c'est pas le robot qui rejoue les gestes d'un nourrisson, c'est la donnée synthétique que ça produit : proprio, toucher et vision synchronisés depuis une simple vidéo, c'est rare et c'est exactement ce dont les VLA ont besoin pour généraliser hors labo. L'application médicale (détection précoce de troubles moteurs sans coller des capteurs partout sur un bébé) est probablement le cas d'usage le plus sérieux à court terme. Reste à voir les métriques sur corpus complet, les auteurs ne les publient pas pour l'instant.

RecherchePaper
1 source
Les modèles d'action du monde généralisent-ils mieux que les VLA ? Une étude sur la robustesse
390arXiv cs.RO 

Les modèles d'action du monde généralisent-ils mieux que les VLA ? Une étude sur la robustesse

Une étude publiée sur arXiv (référence 2603.22078) compare les performances de deux familles d'architectures pour la planification d'actions robotiques : les modèles vision-langage-action (VLA), aujourd'hui dominants dans la recherche, et les world action models (WAM), une approche plus récente fondée sur la prédiction d'états futurs. Les chercheurs ont soumis plusieurs systèmes à des perturbations visuelles et linguistiques sur deux bancs d'essai standardisés, LIBERO-Plus et RoboTwin 2.0-Plus. Les résultats chiffrés montrent que LingBot-VA, un WAM, atteint 74,2 % de taux de succès sur RoboTwin 2.0-Plus, tandis que Cosmos-Policy, développé dans l'écosystème NVIDIA, obtient 82,2 % sur LIBERO-Plus. Le VLA pi-0.5, produit par Physical Intelligence, parvient à des niveaux de robustesse comparables sur certaines tâches, mais au prix d'un entraînement sur des jeux de données robotiques très diversifiés et avec des objectifs d'apprentissage multiples. L'enjeu central de cette comparaison est la généralisation hors distribution : les systèmes robotiques déployés en environnement industriel réel rencontrent des variations d'éclairage, de fond visuel et de formulations d'instructions que leurs données d'entraînement ne couvrent pas. Les WAM tirent leur robustesse de préentraînements massifs sur des vidéos web, qui leur confèrent des priors spatiotemporels sur la dynamique du monde physique. L'étude confirme que cette capacité de prédiction explicite des états futurs améliore effectivement la tenue aux perturbations, sans nécessiter autant de données de démonstration robotique que les VLA. Elle identifie également une classe intermédiaire, les approches hybrides qui intègrent partiellement la prédiction vidéo, et montre qu'elles obtiennent une robustesse intermédiaire, soulignant que la manière d'intégrer ces priors vidéo est aussi importante que leur présence. Les VLA comme pi-0 et pi-0.5 (Physical Intelligence), OpenVLA ou RoboVLMs ont dominé la recherche en manipulation robotique depuis 2023, profitant de la maturité des grands modèles vision-langage. Les WAM s'inscrivent dans un courant plus récent, porté notamment par NVIDIA avec sa famille Cosmos et par plusieurs laboratoires académiques, qui revisitent les world models comme substrat d'action plutôt que comme outil de simulation. Cette étude apporte une validation empirique contrôlée à une hypothèse jusqu'ici surtout théorique, et devrait peser dans les choix d'architecture pour les prochaines générations de systèmes robotiques polyvalents, notamment dans les contextes industriels où la robustesse aux variations non anticipées est un critère de qualification prioritaire.

IA physiqueOpinion
1 source
FalconApp : déploiement rapide sur iPhone d'un système de perception bout-en-bout via données synthétiques labellisées automatiquement
391arXiv cs.RO 

FalconApp : déploiement rapide sur iPhone d'un système de perception bout-en-bout via données synthétiques labellisées automatiquement

FalconApp, présentée dans un preprint arXiv publié fin avril 2026 (arXiv:2604.25949), est une application iPhone couplée à un pipeline backend qui transforme une courte vidéo capturée à la main en un module de perception opérationnel pour la robotique, capable de détection de masque et d'estimation de pose à 6 degrés de liberté (6-DoF). Le pipeline complet fonctionne ainsi : l'utilisateur filme un objet rigide, l'application reconstruit un asset 3D au format GSplat (Gaussian Splatting), le composite sur des fonds photorealistes variés, génère des images synthétiques avec masques et poses de vérité terrain en étiquetage automatique, entraîne le module de perception, puis le redéploie sur l'iPhone. Sur cinq objets de géométries et textures diverses, le système atteint en moyenne 20 minutes de génération de données synthétiques et d'entraînement par objet, une latence bout-en-bout d'environ 30 ms sur l'appareil, et surpasse un algorithme de référence PnP (Perspective-n-Point) sur 4 objets sur 5, tant en simulation qu'en évaluation réelle. L'intérêt industriel est direct : le goulot d'étranglement classique de la perception en robotique est l'annotation manuelle de données réelles, coûteuse et chronophage. Ramener ce délai à 20 minutes via de la donnée synthétique auto-étiquetée représente un changement de paradigme pour les intégrateurs robotiques qui doivent adapter rapidement des systèmes de préhension ou de localisation à de nouveaux objets sans pipeline MLOps lourd. La latence de 30 ms sur smartphone est compatible avec un usage temps réel embarqué. Cela dit, la validation reste modeste : cinq objets rigides seulement, sans test sur des surfaces réfléchissantes, des objets partiellement occultés ou des scènes encombrées, ce qui laisse ouverte la question de la robustesse en conditions industrielles réelles. Le Gaussian Splatting (3DGS) est devenu un outil central de reconstruction 3D depuis son introduction au SIGGRAPH 2023, et plusieurs équipes l'exploitent désormais pour générer de la donnée d'entraînement synthétique en robotique. Sur le terrain de la donnée synthétique pour la pose 6-DoF, FalconApp s'inscrit dans la lignée de travaux académiques comme MegaPose, développé notamment par des chercheurs de l'INRIA en France. La différence revendiquée ici est l'intégration verticale mobile-to-deployment en moins de 30 minutes, sans infrastructure cloud spécialisée. L'étape suivante logique serait d'élargir la validation à des objets déformables ou semi-rigides, et de tester le pipeline dans des environnements à éclairage variable, deux conditions fréquentes en atelier.

UEL'INRIA française est co-auteur de MegaPose, travail de référence dont FalconApp s'inspire directement, mais le pipeline lui-même n'émane pas d'une institution européenne et aucun déploiement en France ou en UE n'est identifié.

IA physiquePaper
1 source
Vulnérabilité des politiques de clonage comportemental aux attaques adversariales universelles
392arXiv cs.RO 

Vulnérabilité des politiques de clonage comportemental aux attaques adversariales universelles

Une équipe de chercheurs a publié sur arXiv (2502.03698) la première étude systématique, selon les auteurs, de la vulnérabilité des politiques d'imitation learning aux attaques adversariales. Cinq algorithmes représentatifs ont été évalués : le Behavior Cloning classique (Vanilla BC), LSTM-GMM, l'Implicit Behavior Cloning (IBC), la Diffusion Policy (DP) et le Vector-Quantized Behavior Transformer (VQ-BET), toutes des méthodes au coeur des systèmes robotiques actuels entraînés par démonstration. Chaque modèle a été soumis à trois catégories d'attaques : en boîte blanche (accès complet aux paramètres du modèle), en boîte grise, et en boîte noire (accès limité aux entrées-sorties). Les résultats sont sans appel : la quasi-totalité des algorithmes testés sont fortement vulnérables, y compris aux attaques en transfert inter-algorithmes, où une perturbation conçue pour un modèle reste efficace contre un modèle différent. Ce résultat préoccupe directement les intégrateurs et responsables de sécurité industrielle. Les politiques issues du behavior cloning sont de plus en plus déployées sur des manipulateurs industriels pilotés par vision, sensibles à des perturbations visuelles imperceptibles à l'oeil humain. La propriété de transfert en boîte noire implique qu'un attaquant n'a pas besoin de connaître l'architecture exacte du modèle cible pour le compromettre, abaissant considérablement la barre pour une exploitation malveillante. Cela pose une question de sécurité concrète dans les cellules de production autonomes et les entrepôts logistiques où ces politiques opèrent sans supervision humaine continue. La Diffusion Policy et le VQ-BET, deux des approches les plus citées dans la communauté robotique ces dernières années, n'offrent pas de robustesse adversariale supérieure aux méthodes classiques selon ces résultats. L'étude intervient alors que l'imitation learning structure de plus en plus l'entraînement des VLA (Visual Language Action models) et des foundation models robotiques, rendant la robustesse critique avant tout déploiement à grande échelle. Plusieurs équipes avaient déjà documenté le sim-to-real gap comme obstacle majeur ; cette publication ajoute la fragilité adversariale comme second vecteur de risque structurel. Le code et les vidéos de démonstration sont disponibles publiquement, facilitant les futurs travaux sur les mécanismes de défense, encore très peu explorés pour ces architectures.

UELes intégrateurs robotiques européens déployant des manipulateurs industriels pilotés par vision avec des politiques d'imitation learning (BC, Diffusion Policy, VQ-BET) sont exposés à des attaques adversariales visuelles transférables, sans défenses éprouvées disponibles à ce stade.

RechercheOpinion
1 source
Un joint de poignet à abduction-adduction entraîné par tendons améliore les performances d'un exosquelette de membre supérieur à 5 degrés de liberté
393arXiv cs.RO 

Un joint de poignet à abduction-adduction entraîné par tendons améliore les performances d'un exosquelette de membre supérieur à 5 degrés de liberté

Une équipe de chercheurs a publié sur arXiv (preprint arXiv:2504.20898) une évaluation expérimentale de l'exosquelette de membre supérieur EXOTIC2, enrichi d'un sixième degré de liberté actif au niveau du poignet : le mouvement d'abduction-adduction (Ab-Ad). Le module intégré est compact et léger, utilisant une transmission par tendons pour l'abduction et un rappel par ressort pour l'adduction. Le protocole a impliqué huit adultes sans déficit moteur, soumis à deux tâches fonctionnelles de la vie quotidienne (boire dans un verre, gratter une surface) dans deux conditions randomisées : poignet actif vs. poignet bloqué. Un test de faisabilité préliminaire a également été conduit sur une personne atteinte de sclérose latérale amyotrophique (SLA). Les résultats quantitatifs sont nets : avec le DoF Ab-Ad activé, le taux de renversement lors de la tâche de boisson chute de 56 % à 3 %, et le taux de succès pour le nivellement lors de la tâche de grattage passe de 28 % à 75 %. Aucune dégradation du temps d'exécution n'a été observée. Ces chiffres apportent une preuve expérimentale directe d'un point souvent débattu dans la communauté exosquelette : l'ajout d'un DoF au poignet est fréquemment évité pour des raisons de complexité mécanique et de poids, sans que son bénéfice fonctionnel réel soit bien documenté. Cette étude comble ce vide pour les tâches de préhension et de transport d'objets. L'exosquelette EXOTIC (dont EXOTIC2 est la seconde génération) est développé dans un contexte de rééducation pour personnes à mobilité réduite sévère, notamment les patients SLA. Le domaine des exosquelettes de membre supérieur à vocation clinique reste dominé par quelques acteurs européens et nord-américains : Hocoma, Tyromotion, ou encore le français Wandercraft côté membre inférieur. Pour le membre supérieur, les solutions commerciales disponibles (Armeo, REAplan) intègrent rarement un contrôle actif du poignet en Ab-Ad. Ce travail, encore au stade de preprint, devra être validé sur une cohorte de patients avec déficits moteurs avant toute perspective de commercialisation, mais il pose une base expérimentale solide pour les prochaines itérations de conception.

UECette recherche sur EXOTIC2 renforce la base expérimentale des exosquelettes de membre supérieur cliniques, un segment dominé par des acteurs européens (Hocoma, Tyromotion) et où ce bénéfice documenté du DoF de poignet Ab-Ad peut orienter les prochaines générations de dispositifs de rééducation.

ExosquelettesPaper
1 source
Navigation autonome d'un robot par apprentissage structurel en ligne et planification par inférence active
394arXiv cs.RO 

Navigation autonome d'un robot par apprentissage structurel en ligne et planification par inférence active

Des chercheurs de l'université de Gand ont publié sur arXiv un système de navigation robotique autonome baptisé AIMAPP (Active Inference MAPping and Planning), capable d'explorer des environnements inconnus sans carte préalable ni phase d'entraînement. Le robot construit en temps réel une carte topologique sparse, apprend dynamiquement les transitions d'états et planifie ses actions en minimisant ce que les auteurs appellent l'Énergie Libre Attendue (Expected Free Energy), un principe emprunté à la théorie de l'inférence active. Le système est compatible avec ROS, indépendant du type de capteurs utilisés et fonctionne en mode entièrement auto-supervisé, sans aucune intervention humaine préalable. L'intérêt principal d'AIMAPP réside dans sa robustesse face aux conditions réelles d'opération : il continue de fonctionner même en cas de défaillance partielle des capteurs ou de dérive odométrique cumulative, deux problèmes qui paralysent souvent les systèmes classiques de navigation SLAM. Contrairement aux approches par apprentissage profond qui nécessitent d'importants volumes de données annotées, AIMAPP s'adapte en ligne à des environnements changeants et à des observations ambiguës. Dans des évaluations conduites à grande échelle, en environnements réels et simulés, le système surpasse ou égale les planificateurs de référence actuels, ouvrant la voie à des robots déployables dans des contextes non structurés comme des entrepôts, des zones sinistrées ou des espaces extérieurs. L'inférence active est un cadre théorique issu des neurosciences computationnelles, initialement développé pour modéliser la perception et l'action chez les êtres vivants. Son application à la robotique est encore émergente, mais AIMAPP représente une des implémentations les plus complètes à ce jour, combinant cartographie, localisation et prise de décision dans un modèle génératif unifié. Le code est disponible publiquement sur GitHub (decide-ugent/aimapp), ce qui pourrait accélérer son adoption dans la communauté robotique. La prochaine étape naturelle sera de tester le système sur des flottes de robots opérant en parallèle, ainsi que dans des environnements dynamiques peuplés d'humains.

UERecherche conduite par l'Université de Gand (Belgique), le code open-source publié sur GitHub est directement exploitable par les laboratoires et industriels européens actifs en robotique autonome.

💬 Pas de données annotées, pas de carte préalable, et ça tient quand les capteurs flanchent, là où SLAM se plante souvent. C'est le problème qu'on n'arrivait pas à régler proprement depuis des années en robotique mobile. Le code est sur GitHub et compatible ROS, donc les labos n'ont pas besoin de repartir de zéro.

RecherchePaper
1 source
Vers un MAPF réaliste : SMART, un banc de test multi-agents extensible pour le monde réel
395arXiv cs.RO 

Vers un MAPF réaliste : SMART, un banc de test multi-agents extensible pour le monde réel

Une équipe de chercheurs a publié SMART (Scalable Multi-Agent Realistic Testbed), un environnement de simulation open-source destiné à l'évaluation des algorithmes MAPF (Multi-Agent Path Finding), c'est-à-dire la planification de trajectoires sans collision pour des flottes de robots. Le papier, référencé arXiv:2503.04798, présente un outil capable de simuler jusqu'à plusieurs milliers de robots simultanément, en intégrant un moteur physique complet qui modélise la kinodynamique des robots et les incertitudes d'exécution réelles. SMART s'appuie sur un cadre de supervision d'exécution basé sur l'Action Dependency Graph (ADG), ce qui permet une intégration modulaire avec différents planificateurs MAPF et modèles de robots. Le code est disponible publiquement sur GitHub, accompagné d'un service de démonstration en ligne. L'enjeu industriel est direct : les meilleurs planificateurs MAPF actuels sont capables de calculer des trajectoires pour des centaines de robots en quelques secondes, mais ils reposent presque tous sur des modèles de robots simplifiés, ignorant la dynamique réelle, les glissements, les délais de démarrage ou les imprécisions de positionnement. Ce fossé entre simulation idéalisée et comportement terrain est un frein majeur au déploiement en entrepôt ou en atelier. SMART propose de combler ce gap en permettant aux intégrateurs et aux équipes R&D de tester leurs algorithmes dans des conditions proches de la réalité sans avoir besoin de dizaines ou de centaines de robots physiques, ressource quasi-inaccessible en laboratoire. Pour un COO industriel qui évalue des solutions AMR (Autonomous Mobile Robots), disposer d'un simulateur crédible et open-source réduit significativement le risque d'un déploiement raté. Le problème du sim-to-real gap dans le MAPF est documenté depuis plusieurs années, et des acteurs comme Amazon Robotics, Geek+ ou Exotec en Europe ont développé leurs propres outils internes. SMART vise à démocratiser cet accès, notamment pour les équipes académiques et les intégrateurs de taille intermédiaire. Le framework ADG n'est pas nouveau, il était déjà central dans les travaux antérieurs sur l'exécution robuste de MAPF, mais son intégration dans un simulateur à physique réaliste et passant à l'échelle représente une avancée méthodologique. Les prochaines étapes probables incluent la validation sur des cas industriels concrets et l'ajout de modèles de robots commerciaux comme les AMR à différentiel ou les AGV à guidage magnétique.

UEExotec, acteur français des AMR d'entrepôt, est cité parmi les rares industriels disposant d'outils internes similaires ; SMART pourrait réduire la barrière à l'entrée pour les équipes R&D et intégrateurs européens de taille intermédiaire souhaitant valider des algorithmes MAPF sans flotte physique.

RecherchePaper
1 source
Panorama des représentations de mémoire spatiale pour la navigation robotique efficace
396arXiv cs.RO 

Panorama des représentations de mémoire spatiale pour la navigation robotique efficace

Une étude publiée sur arXiv (2604.16482) recense 88 travaux couvrant 52 systèmes de navigation robotique entre 1989 et 2025, des grilles d'occupation classiques jusqu'aux représentations neurales implicites. Le problème central : à mesure qu'un robot explore de grands espaces, sa mémoire spatiale croît sans borne, épuisant les ressources des plateformes embarquées typiques (8 à 16 Go de mémoire partagée, moins de 30 W de consommation). Les auteurs introduisent un coefficient α, défini comme le rapport entre la mémoire RAM ou GPU consommée en opération (Mpeak) et la taille de la carte sauvegardée sur disque (Mmap). Un profilage indépendant sur GPU NVIDIA A100 révèle que α varie de deux ordres de grandeur selon les méthodes neurales seules : Point-SLAM affiche α = 2,3, tandis que NICE-SLAM atteint α = 215, sa carte de 47 Mo réclamant 10 Go à l'exécution. Les méthodes 3DGS (Gaussian Splatting 3D) obtiennent la meilleure précision absolue pour des cartes de 90 à 254 Mo sur le benchmark Replica, et les graphes de scènes offrent une abstraction sémantique à coût prévisible. Ce résultat remet en cause une hypothèse courante dans la communauté SLAM : la taille de la carte publiée dans un papier n'est pas un indicateur fiable de la faisabilité réelle sur matériel cible. Un système qui semble léger au sens du checkpoint disque peut exiger des ressources mémoire prohibitives au runtime, rendant son déploiement impossible sur une unité de calcul edge standard. L'absence de métrique unifiée sur la consommation mémoire dynamique explique en partie pourquoi des méthodes prometteuses en laboratoire peinent à franchir le seuil de la mise en production industrielle, notamment sur les robots mobiles autonomes (AMR) ou les manipulateurs avec vision embarquée. L'étude propose un protocole standardisé articulé autour du taux de croissance mémoire, de la latence de requête, des courbes mémoire-complétude et de la dégradation du débit, quatre indicateurs absents des benchmarks actuels. Le champ de la mémoire spatiale pour la navigation autonome a connu une accélération avec l'arrivée des représentations neurales implicites (NeRF, 3DGS) autour de 2020-2022, qui ont amélioré la qualité de reconstruction mais ignoré la contrainte mémoire runtime. Des acteurs comme iSLAM, Point-SLAM ou NICE-SLAM ont publié des cartes compactes sans fournir de mesures de consommation dynamique, créant un angle mort dans l'évaluation comparative. Sur le plan concurrentiel, les intégrateurs industriels qui évaluent des solutions SLAM pour des environnements larges (entrepôts, usines) devront désormais exiger le coefficient α comme critère de qualification, en plus du RMSE de localisation. La prochaine étape logique annoncée par les auteurs est un algorithme de budgétisation α-aware permettant d'évaluer la faisabilité de déploiement sur hardware cible avant toute implémentation, un outil directement actionnable pour les équipes d'intégration.

RecherchePaper
1 source
Modèle World-Value-Action : planification implicite pour les systèmes vision-langage-action (VLA)
397arXiv cs.RO 

Modèle World-Value-Action : planification implicite pour les systèmes vision-langage-action (VLA)

Des chercheurs ont publié le 21 avril 2026 un article sur arXiv (2604.14732) présentant le modèle WAV (World-Value-Action), une architecture unifiée destinée à améliorer les capacités de planification des systèmes Vision-Language-Action (VLA). Les VLA sont des modèles qui ancrent la perception visuelle et les instructions en langage naturel dans des commandes motrices directes, une approche devenue centrale dans la robotique généraliste ces deux dernières années. Le problème ciblé par WAV est précis : la majorité des VLA actuels prédisent les actions de manière directe (un état visuel + une instruction = une action), sans modéliser les conséquences à long terme de leurs décisions. Le modèle WAV introduit à la place une représentation latente structurée des trajectoires futures, conditionnée sur les observations visuelles et les instructions. Un modèle de monde (world model) prédit les états futurs, tandis qu'une fonction de valeur de trajectoire (trajectory value function) évalue leur utilité à horizon long. La génération d'action est ensuite formulée comme une inférence dans cet espace latent, où le modèle concentre progressivement la masse de probabilité sur les trajectoires à haute valeur et dynamiquement réalisables. L'apport théorique central est démontré formellement : planifier directement dans l'espace des actions entraîne une décroissance exponentielle de la probabilité de trajectoires réalisables à mesure que l'horizon s'allonge, un obstacle fondamental pour toute tâche nécessitant plusieurs étapes enchaînées. L'inférence dans l'espace latent restructure la distribution de recherche vers des régions réalisables, ce qui rend la planification à long horizon tractable. En pratique, WAV surpasse les méthodes de l'état de l'art en simulation et dans des expériences réelles, avec des gains mesurables sur le taux de succès des tâches, la capacité de généralisation et la robustesse, notamment dans les scénarios compositionnels et à horizon long. Pour les intégrateurs industriels et les équipes de robotique, cela signifie potentiellement un meilleur comportement dans les tâches en plusieurs étapes, assemblage, manipulation séquentielle, sans avoir à pré-programmer des graphes de tâches explicites. Les VLA ont connu une accélération notable depuis fin 2023, avec des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA (Berkeley) qui ont validé l'approche d'un modèle fondationnel pour la manipulation robotique. La plupart de ces architectures partagent le défaut que WAV cherche à corriger : l'absence de raisonnement causal sur les conséquences des actions. Des approches concurrentes comme SWIM (Sequential World Inference Models) ou les travaux de Dreamer appliqués à la robotique explorent des pistes similaires via des world models explicites, mais WAV tente d'intégrer planning implicite et génération d'action dans un seul cadre d'entraînement. Le code est disponible publiquement sur GitHub (Win-commit/WAV). Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans l'article, il s'agit pour l'instant d'une publication académique, sans produit shipped ni pilote annoncé.

RechercheActu
1 source
Modèles fondation en robotique : revue complète des méthodes, modèles, jeux de données, défis et perspectives
398arXiv cs.RO 

Modèles fondation en robotique : revue complète des méthodes, modèles, jeux de données, défis et perspectives

Une revue systématique publiée sur arXiv (2604.15395) recense l'état de l'art des modèles de fondation appliqués à la robotique, couvrant l'ensemble du spectre allant des grands modèles de langage (LLM) aux architectures vision-langage-action (VLA). Les auteurs structurent leur analyse en cinq phases historiques distinctes, depuis les premières intégrations de modèles NLP et vision par ordinateur jusqu'aux déploiements multi-sensoriels en environnement réel. La taxonomie proposée examine six axes : les types de modèles employés (LLM, VFM, VLM, VLA), les architectures de réseaux de neurones sous-jacentes, les paradigmes d'apprentissage, les stades d'incorporation des connaissances, les tâches robotiques ciblées, et les domaines applicatifs industriels. L'étude recense également les datasets publics utilisés pour l'entraînement et l'évaluation sur ces différentes tâches. L'intérêt de ce travail pour les intégrateurs et les décideurs industriels réside dans sa cartographie des capacités réelles versus annoncées des VLA en déploiement. Le passage d'agents mono-tâche et spécialisés vers des agents adaptatifs multi-fonctions à usage général constitue le fil directeur de l'analyse. Les auteurs traitent explicitement du gap simulation-réalité (sim-to-real), de la généralisation inter-embodiment (cross-embodiment), et de la planification à horizon long, trois verrous techniques qui conditionnent la commercialisation à grande échelle. La revue identifie aussi les défis ouverts et les directions de recherche prometteuses, utiles pour orienter des feuilles de route R&D. Ce survey s'inscrit dans une accélération documentée depuis 2022, portée par des laboratoires comme Google DeepMind (RT-2, π0), Physical Intelligence, Figure AI, et Unitree, qui ont tous misé sur les VLA comme colonne vertébrale de leurs systèmes. Côté européen, des acteurs comme Enchanted Tools ou Wandercraft n'apparaissent pas dans ce corpus, ce qui reflète un déséquilibre de publication favorable aux équipes nord-américaines et asiatiques. La revue ne constitue pas un benchmark expérimental indépendant mais une synthèse bibliographique, ce qui en fait un point d'entrée solide pour un ingénieur robotique cherchant à situer une technologie ou comparer des approches, sans remplacer une évaluation terrain des solutions commerciales disponibles.

UELe déséquilibre de publication constaté, acteurs FR/EU (Enchanted Tools, Wandercraft) absents du corpus, souligne un déficit de visibilité des équipes européennes dans la recherche VLA, ce qui peut biaiser les benchmarks de référence utilisés par les industriels pour orienter leurs feuilles de route R&D.

RecherchePaper
1 source
Calibration main-oeil en continu pour la manipulation robotique en environnement ouvert
399arXiv cs.RO 

Calibration main-oeil en continu pour la manipulation robotique en environnement ouvert

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.15814) un framework d'étalonnage main-oeil continu (continual hand-eye calibration) destiné aux robots manipulateurs déployés dans des environnements ouverts et changeants. Le problème adressé est précis : les modèles de calibration basés sur le deep learning perdent leur précision sur les scènes précédemment apprises dès qu'ils s'adaptent à un nouvel environnement, un phénomène connu sous le nom d'oubli catastrophique (catastrophic forgetting). Le framework proposé repose sur deux composants distincts. Le premier, SARS (Spatial-Aware Replay Strategy), construit un buffer de rejeu géométriquement uniforme qui couvre l'espace de poses de chaque scène sans redondance, en sélectionnant les points de vue les plus informatifs plutôt que les frames adjacentes. Le second, SPDD (Structure-Preserving Dual Distillation), décompose la connaissance de localisation en deux niveaux, la structure grossière de la scène et la précision fine de pose, puis applique une distillation séparée pour préserver les deux dimensions lors des adaptations successives. Les expériences sur plusieurs datasets publics confirment que le modèle maintient la précision sur les scènes passées tout en s'adaptant aux nouvelles. L'enjeu industriel est réel : un bras manipulateur recalibré pour une nouvelle cellule de production ne devrait pas perdre sa précision sur les postes précédents. C'est le problème quotidien des intégrateurs qui déploient des robots dans des lignes flexibles ou multi-produits. La plupart des approches actuelles imposent soit un recalibrage complet à chaque changement de scène, soit acceptent une dégradation progressive des performances sur les configurations antérieures. Ce travail propose une voie intermédiaire via l'apprentissage continu structuré, sans recourir à un replay naïf qui ne suffit pas à enrayer l'oubli. L'approche par distillation duale est notamment pertinente car elle distingue deux types d'erreur, positionnement global et précision locale, ce que les méthodes monolithiques ne font pas. Ce travail s'inscrit dans un champ de recherche en forte activité depuis 2022, où la robustesse de la calibration visuelle en conditions réelles est identifiée comme l'un des goulots d'étranglement pour le passage à l'échelle des manipulateurs autonomes. La localisation visuelle pour la calibration main-oeil emprunte aux techniques de Visual Place Recognition (VPR) et de relocalisation utilisées en navigation mobile, mais les contraintes de précision sous-millimétrique propres à la manipulation y ajoutent une difficulté spécifique. Parmi les acteurs qui travaillent sur des problèmes adjacents figurent des équipes comme Physical Intelligence (pi) avec Pi-0, ou des laboratoires comme le Stanford AI Lab et ETH Zurich sur la sim-to-real calibration. En France, des acteurs comme Enchanted Tools et Pollen Robotics, qui développent des plateformes d'interaction physique, sont directement concernés par ce type de verrou. La prochaine étape naturelle pour ce framework serait une validation sur des données industrielles réelles et une intégration dans des pipelines de déploiement multi-cellules, que les auteurs n'ont pas encore annoncée.

UEEnchanted Tools et Pollen Robotics, qui développent des plateformes de manipulation physique en France, sont directement concernés par ce verrou de calibration continue, susceptible de réduire les coûts de redéploiement en production flexible.

RecherchePaper
1 source
CLAW : génération de mouvements corps entier composables et annotés en langage naturel
400arXiv cs.RO 

CLAW : génération de mouvements corps entier composables et annotés en langage naturel

Une équipe de chercheurs a publié CLAW (Composable Language-Annotated Whole-body Motion Generation), un pipeline open source conçu pour générer à grande échelle des données de mouvement annoté en langage naturel pour robots humanoïdes, appliqué ici au Unitree G1. Le système compose des primitives de mouvement paramétrées par six variables, type de déplacement, cap, vitesse, hauteur du bassin (pelvis height) et durée, et les exécute dans le simulateur MuJoCo pour produire des trajectoires physiquement cohérentes. Deux interfaces navigateur sont proposées : un mode clavier en temps réel pour l'exploration, et un éditeur de séquences en timeline pour la collecte de données en batch. En parallèle, un moteur de génération d'annotations basé sur des templates produit des descriptions en langage naturel à deux niveaux de granularité : segment individuel et trajectoire complète. Le code est disponible publiquement sur GitHub sous la référence arXiv:2604.11251. L'enjeu central est le goulot d'étranglement des données pour entraîner des contrôleurs whole-body conditionnés au langage (VLA, Vision-Language-Action). La capture de mouvement réelle est coûteuse, peu scalable et limitée en diversité ; les modèles génératifs text-to-motion existants produisent des sorties purement cinématiques, sans garantie de faisabilité physique, un écueil critique pour le déploiement réel. CLAW apporte une réponse intermédiaire : la simulation MuJoCo ancre les trajectoires dans la physique, tandis que la composition modulaire de primitives permet une diversité combinatoire élevée. C'est une approche sim-to-real pragmatique qui vise à réduire le fossé entre données d'entraînement et comportement robot en conditions réelles, sans le coût d'un studio de mocap. Le Unitree G1, robot humanoïde chinois positionné sur le segment accessible (prix catalogue autour de 16 000 USD), est une plateforme de recherche de plus en plus utilisée dans la communauté académique, notamment face aux plateformes fermées comme Figure 02 ou Apptronik Apollo. CLAW s'inscrit dans une dynamique plus large de démocratisation des pipelines de données pour la robotique humanoïde, aux côtés de travaux comme le dataset HumanoidBench ou les approches de Physical Animation de Berkeley. La mise à disposition publique du système est son principal atout différenciant : elle permet aux laboratoires sans ressources de mocap de constituer des jeux de données whole-body annotés pour leurs propres expériences de contrôle en langage. Les prochaines étapes attendues, non annoncées dans ce papier, concernent le transfert réel sur G1 et la validation des politiques entraînées sur ces données synthétiques.

UELes laboratoires européens de recherche en robotique humanoïde peuvent exploiter ce pipeline open source pour constituer des jeux de données whole-body annotés sans infrastructure de mocap coûteuse.

IA physiqueOpinion
1 source