Aller au contenu principal

Recherche — page 6

1617 articles · page 6 sur 33

Publications scientifiques en robotique : arXiv cs.RO, ICRA, IROS, Humanoids, CoRL — nouveaux algorithmes, benchmarks et datasets.

VL2Spike : distillation de modèles vision-langage vers des réseaux à impulsions pour la perception visuelle basse consommation dans l'IA incarnée
251arXiv cs.RO RecherchePaper

VL2Spike : distillation de modèles vision-langage vers des réseaux à impulsions pour la perception visuelle basse consommation dans l'IA incarnée

Des chercheurs ont publié sur arXiv (référence 2606.15898) VL2Spike, un cadre de distillation de connaissances qui transfère les représentations multi-modales des grands modèles vision-langage (VLM) vers des réseaux de neurones impulsionnels (SNN), spécifiquement des architectures Spikformer. Les résultats annoncés sur trois jeux de données statiques indiquent un gain de précision de 6,81 points de pourcentage, avec une consommation énergétique réduite à 15,7 % de celle d'un modèle de référence classique. Sur la reconnaissance de lieu par vision (VPR), tâche directement applicable à la navigation robotique, le gain atteint 6,63 %. Deux contributions techniques sont mises en avant : une distillation visuo-temporelle (SVS) qui aligne les représentations spatiales et temporelles du VLM avec les tokens impulsionnels du Spikformer, et une distillation linguistique guidée par prototypes (SPL) qui synchronise les prototypes de classes du SNN avec les embeddings textuels du VLM. L'enjeu de ce travail est réel pour la robotique embarquée. Les SNN sont architecturalement attractifs pour les systèmes edge (drones, robots mobiles, exosquelettes) car leur calcul événementiel consomme peu d'énergie, mais leurs performances en classification restaient structurellement inférieures aux transformers classiques, limitant leur adoption dans des pipelines de perception industriels. VL2Spike propose une voie pour combler cet écart sans sacrifier l'efficacité énergétique. La précision du chiffre "15,7 % de consommation" mérite toutefois d'être relativisée : il s'agit d'une estimation théorique en opérations synaptiques, pas d'une mesure sur silicium réel, ce que les auteurs reconnaissent implicitement en parlant de "modèles contraints en ressources". Les réseaux impulsionnels ont connu un regain d'intérêt depuis 2020 avec l'émergence des Spiking Transformers (SpikFormer, Spikingformer, SDT), notamment portés par des groupes à Pékin Jiaotong University et Zhejiang University. Sur le front des VLM utilisés comme "professeurs" en distillation, les approches s'appuient généralement sur CLIP ou ses variantes. Le positionnement concurrentiel direct de VL2Spike se situe face aux méthodes de quantification et de pruning de transformers classiques, qui visent aussi la contrainte énergétique sans les propriétés biologiquement inspirées des SNN. Les suites naturelles incluent des validations sur hardware neuromorphique (Intel Loihi, SpiNNaker) et des tests intégrés dans des boucles de perception robotique complètes.

1 source
Apprentissage de Koopman récursif régularisé par covariance pour systèmes non linéaires à dynamique incertaine et variable
252arXiv cs.RO 

Apprentissage de Koopman récursif régularisé par covariance pour systèmes non linéaires à dynamique incertaine et variable

Des chercheurs ont publié le 16 juin 2026 sur arXiv (arXiv:2606.15317) un framework d'identification de modèle en ligne baptisé CR-RKL (Covariance-Regulated Recursive Koopman Learning), conçu pour maintenir des performances de contrôle stables sur des robots soumis à des dynamiques changeantes et imprévisibles. La méthode repose sur la théorie de l'opérateur de Koopman, qui transforme un système non linéaire en représentation linéaire via des fonctions de relèvement ("lifting"), permettant d'utiliser des outils d'estimation linéaire classiques. Deux mécanismes complémentaires sont introduits : un filtre de zone morte sur l'erreur de prédiction ("error dead-zone gating"), et une normalisation à trace constante de la matrice de covariance ("constant-trace normalization"). Chacun suffit indépendamment à éviter les deux pathologies numériques connues de l'estimation récursive de Koopman : l'explosion de covariance sous faible excitation avec oubli exponentiel, et le gel des paramètres sans oubli. Le framework a été validé sur deux plateformes : un robot différentiel non-holonome soumis à glissement de roues et friction de type Stribeck, et un micro-véhicule aérien à battement d'ailes inspiré du papillon, pesant 26 grammes. Dans les deux cas, CR-RKL est embarqué dans une boucle de commande prédictive (MPC) et maintient un suivi de trajectoire fiable. L'enjeu industriel de ce travail dépasse la robotique académique : les modèles hors-ligne appris en simulation ou en conditions contrôlées se dégradent dès que les conditions réelles s'écartent de la distribution d'entraînement, problème classique du sim-to-real gap. CR-RKL propose une adaptation en temps réel sans retraining complet, ce qui est directement pertinent pour les intégrateurs de robots mobiles en environnement industriel variable (sols glissants, charge variable, usure mécanique). La capacité à préserver la structure géométrique de l'incertitude via la normalisation à trace constante est un argument fort pour les applications de contrôle certifiable, où la qualité de l'estimation de covariance conditionne la robustesse des garanties MPC. La théorie de Koopman connaît depuis 2018-2020 un regain d'intérêt en robotique comme alternative aux réseaux neuronaux dynamiques (LSTM, Neural ODE), notamment parce qu'elle conserve une structure linéaire exploitable analytiquement. Les approches récursives existantes (RLS-Koopman, EDMD adaptatif) souffrent précisément des instabilités numériques que CR-RKL cible. Sur le segment des micro-aéronefs à battement d'ailes (FWMAV), des groupes comme le Harvard Microrobotics Lab ou l'EPFL travaillent sur des dynamiques similaires, rendant ce benchmark particulièrement significatif. La publication est un preprint ; aucun pilote industriel ni partenariat commercial n'est annoncé à ce stade.

RecherchePaper
1 source
DragMesh-2 : interaction main-objet dextérique physiquement plausible avec des objets articulés
253arXiv cs.RO 

DragMesh-2 : interaction main-objet dextérique physiquement plausible avec des objets articulés

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.15133v1) DragMesh-2, un framework de manipulation dextre d'objets articulés destiné aux mains multi-doigts. L'objectif est de permettre à un robot de manipuler des objets dont une partie est mobile (tiroir, poignée de porte, levier) sans pouvoir l'actionner directement, le mouvement devant émerger exclusivement du contact physique soutenu entre la main et la surface. Le système introduit PICA (Physically Informed Contact-Aware), un mécanisme d'entraînement qui injecte des signaux physiques dans l'apprentissage de politique sans capteur tactile ni retour de force, simplifiant ainsi l'instrumentation matérielle nécessaire. Évalué sur sept objets issus du dataset GAPartNet, DragMesh-2 a été soumis à plusieurs conditions de damping pour mesurer sa robustesse à la variation de charge de contact, sur lesquelles il surpasse les méthodes comparées. La distinction que DragMesh-2 cherche à établir est précise : la plupart des approches existantes en manipulation articulée s'appuient sur une génération centrée objet (object-centric), où les trajectoires sont calculées à partir de la géométrie de la cible. Rejouer ces trajectoires en boucle ouverte (open-loop) ne modélise pas la dynamique de contact nécessaire pour déplacer effectivement la partie articulée. Le problème devient critique quand la charge de contact varie, ce qui arrive fréquemment en conditions réelles : une porte mal alignée, un tiroir dilaté, un levier à résistance variable. PICA adresse ce point sans capteur additionnel, un avantage concret pour les intégrateurs voulant déployer des mains dextres sur des robots humanoïdes en environnement domestique ou assistif, où l'ajout de capteurs de force reste coûteux et fragile. Ce travail s'inscrit dans une tendance plus large qui cherche à dépasser le préhenseur parallèle (parallel-jaw gripper) pour les tâches de manipulation fine en milieu non structuré. GAPartNet, le benchmark utilisé, répertorie des parties articulées standardisées issues de la robotique domestique et constitue la référence commune de ce sous-domaine. La communauté humanoïde, dont les projets de Figure, Agility Robotics ou 1X Technologies, identifie la manipulation d'objets articulés comme un verrou majeur pour les déploiements en cuisine, atelier ou assistance à la personne. DragMesh-2 publie également une ressource en géométrie pure pour la manipulation dextre main-objet, destinée à alimenter les recherches futures en loco-manipulation. Aucun partenariat industriel ni timeline de déploiement n'est mentionné : c'est une contribution académique, pas un produit expédié.

RecherchePaper
1 source
Modélisation unifiée mouvement-action pour l'apprentissage sur robots hétérogènes
254arXiv cs.RO 

Modélisation unifiée mouvement-action pour l'apprentissage sur robots hétérogènes

Des chercheurs ont déposé sur arXiv (arXiv:2606.16917, juin 2026) le modèle UMA (Unified Motion-Action), une architecture d'apprentissage robotique qui place les trajectoires 3D de mouvement d'objets comme interface commune entre contrôle visuomoteur et modélisation de dynamiques. Plutôt que de traiter séparément les actions du robot et l'évolution de l'environnement, UMA les co-modélise sous un objectif génératif masqué, inspiré des architectures MAE (Masked Autoencoders): le motif de masquage détermine à la fois le régime de supervision pendant le pré-entraînement et le mode d'inférence au déploiement. Le modèle est pré-entraîné sur un mélange de démonstrations robotiques, de vidéos humaines et de données simulées, sans annotations manuelles d'instructions de tâches. Un objectif contrastif dissocie l'intention de tâche de la géométrie de scène. Au déploiement, les mêmes paramètres pré-entraînés supportent trois modes distincts: contrôle visuomoteur conditionné par le mouvement, modélisation dynamique, et adaptation few-shot à de nouvelles tâches. Les auteurs rapportent des performances supérieures aux baselines spécialisées sur chacun de ces modes. L'apport principal est de résoudre le problème structurel de l'hétérogénéité des données robotiques. Combiner démonstrations d'un bras industriel, vidéos de mains humaines et scènes simulées dans un entraînement multi-tâche exige habituellement des annotations coûteuses ou des têtes de sortie spécialisées par domaine. UMA contourne cela: les trajectoires 3D d'objets fonctionnent comme un "lingua franca" représentationnel, indépendant de la morphologie du robot ou de la source des données. La technique de "hindsight relabeling" permet d'annoter rétrospectivement des contextes de mouvement depuis les données brutes, sans intervention humaine. Pour un intégrateur ou un COO industriel, c'est concret: adapter un modèle généraliste à une nouvelle ligne en quelques démonstrations réduit sensiblement les coûts de déploiement. Nuance à souligner: il s'agit d'un preprint sans revue par les pairs, et les benchmarks présentés mériteraient une validation indépendante sur plateformes physiques réelles. Cette publication s'inscrit dans la compétition autour des modèles Vision-Langage-Action (VLA) généralisables. Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Figure AI (Helix, déployé sur le Figure 03) cherchent tous à entraîner des politiques robotiques sur des données hétérogènes à grande échelle, avec le même défi partagé: comment exploiter des vidéos humaines non labellisées ou des données simulées sans annotation prohibitive. UMA propose une réponse architecturale via le mouvement 3D d'objets comme superviseur implicite universel, un angle distinct des approches VLA qui s'appuient sur le langage comme pivot sémantique. La validation sur benchmarks ouverts tels que LIBERO ou Open-X Embodiment, absente du preprint, sera déterminante pour évaluer la généralisation réelle de l'approche.

RechercheOpinion
1 source
SemGeoNav : une approche de navigation visuelle guidée par la sécurité, combinant raisonnement sémantique et planification géométrique
255arXiv cs.RO 

SemGeoNav : une approche de navigation visuelle guidée par la sécurité, combinant raisonnement sémantique et planification géométrique

Des chercheurs ont proposé SemGeoNav, un framework de navigation visuelle hiérarchique publié sur arXiv en juin 2026 (arXiv:2606.16400), conçu pour les robots devant atteindre des cibles définies par des images dans des environnements ouverts. L'architecture combine deux couches distinctes : un module de raisonnement sémantique de haut niveau issu des modèles apprenants end-to-end, et un planificateur géométrique local responsable de la sécurité immédiate. Un mécanisme de lissage temporel de trajectoire vient compléter l'ensemble pour garantir des déplacements continus et stables. Les expériences ont été menées sur un robot quadrupède Unitree Go2 dans des environnements réels, et les résultats indiquent des taux de succès supérieurs ainsi que des temps de navigation plus courts que deux baselines de référence du domaine, ViNT et NoMaD. L'apport principal de SemGeoNav réside dans le traitement d'une tension structurelle bien documentée en robotique autonome : les modèles end-to-end apprenants, en particulier les architectures de type VLA (Vision-Language-Action), excellent dans la compréhension sémantique de haut niveau mais manquent de contraintes géométriques explicites, ce qui génère des comportements imprévisibles face aux obstacles en environnement non structuré. À l'inverse, les planificateurs géométriques classiques (champ de potentiel, DWA) garantissent la sécurité locale mais peinent à interpréter des cibles visuelles haute dimension. L'approche hybride hiérarchique de SemGeoNav apporte une réponse architecturale à ce problème de fiabilité opérationnelle, avec des implications directes pour les intégrateurs déployant des robots mobiles en entrepôt ou en environnement industriel non balisé. ViNT et NoMaD, tous deux issus du Berkeley AI Research Lab, constituent les références dominantes en navigation visuelle généraliste à cible imageante. SemGeoNav se positionne explicitement contre ces deux modèles en revendiquant de meilleures performances terrain. Il s'inscrit dans un courant plus large qui remet en question les architectures purement end-to-end au profit de systèmes hybrides modulaires, une direction également explorée par plusieurs équipes européennes et asiatiques. Ce preprint ne publie pas de métriques standardisées comme le SPL (Success weighted by Path Length) ou les benchmarks HM3D/MP3D, ce qui rend difficile toute comparaison directe avec l'état de l'art; une validation à plus grande échelle et sur des jeux de données partagés constituerait la prochaine étape crédible pour ce travail.

RecherchePaper
1 source
Quand un robot doit-il replaner ? Planification mise à jour guidée par le regret dans les MDP à variation temporelle
256arXiv cs.RO 

Quand un robot doit-il replaner ? Planification mise à jour guidée par le regret dans les MDP à variation temporelle

Des chercheurs publient sur arXiv (réf. 2606.16972, juin 2026) un cadre formel pour décider quand, et non comment, un robot doit recalculer sa politique de navigation dans un environnement à dynamiques changeantes. La contrainte centrale est le budget embarqué : énergie et calcul sont finis, chaque cycle de ré-estimation d'état suivi d'une replanification coûte des ressources. Les auteurs modélisent le problème comme un processus de décision markovien à dynamiques variables (TVMDP) avec une borne connue sur le taux de dérive des transitions, puis proposent un schéma dit "skip-update" : à des instants choisis, le robot estime le noyau de transition par maximum de vraisemblance et recalcule une politique finie ; entre ces mises à jour, il propage son estimation d'état et réutilise la politique courante. La règle de déclenchement est guidée par le regret dynamique accumulé, quantifiant l'écart entre politique actuelle et politique optimale. Validé sur un rover simulé sur Mars (dynamiques de glissement variables) et un quadrotor Crazyflie en environnement intérieur (champs d'obstacles), l'allocation adaptative surpasse les stratégies à intervalle fixe dans les deux cas. La contribution principale n'est pas algorithmique mais posturale : la littérature en planification robotique s'attarde principalement sur la façon de replanner efficacement, rarement sur le moment où ce coût computationnel se justifie. Disposer d'une règle traçable et fondée théoriquement pour déclencher les mises à jour a des implications directes pour les robots déployés en conditions réelles : AMR industriels sur sol contaminé ou à trafic variable, drones d'inspection en vol prolongé, sondes spatiales où les cycles CPU et la batterie constituent des ressources critiques non renouvelables. L'approche permet de délester le calculateur embarqué sans sacrifier les performances de navigation dans des environnements non-stationnaires, ce qui répond à un compromis jusqu'ici géré de façon heuristique dans la majorité des implémentations terrain. Le sim-to-real et la robustesse aux dynamiques changeantes figurent parmi les défis ouverts de la robotique de terrain depuis plusieurs années, en lien direct avec les travaux sur le contrôle adaptatif et le MPC (model predictive control). L'utilisation du Crazyflie, plateforme quadrotor open-source standard dans la recherche académique (ETH Zurich, CMU), et d'une simulation Mars-rover constitue des benchmarks reconnus, sans déploiement industriel annoncé ni partenaire commercial mentionné. Les auteurs ne fournissent ni timeline produit ni métriques de performance absolues sur du matériel embarqué réel, ce qui limite la portée immédiate des résultats. Les suites logiques incluent l'extension multi-robots et la validation sur calculateurs embarqués contraints, terrains où des acteurs comme l'ESA ou des équipes françaises spécialisées telles que le LAAS-CNRS (Toulouse) pourraient trouver des applications directes dans leurs programmes de robotique spatiale et de terrain.

UELe LAAS-CNRS (Toulouse) et l'ESA sont identifiés comme bénéficiaires potentiels naturels pour leurs programmes de robotique spatiale et de terrain autonome, sans implication directe à ce stade.

RecherchePaper
1 source
LaWAM : des modèles du monde latents pour des politiques robotiques efficaces et dynamiques
257arXiv cs.RO 

LaWAM : des modèles du monde latents pour des politiques robotiques efficaces et dynamiques

Des chercheurs ont publié en juin 2026 sur arXiv (réf. 2606.15768) LaWAM, un Latent World Action Model destiné au contrôle robotique. Le système atteint 98,6 % de taux de succès sur le benchmark LIBERO, 91,22 % sur RoboTwin, et maintient des résultats compétitifs sur des tâches de manipulation en environnement réel. Sa latence d'inférence est de 187 ms par chunk d'actions, soit jusqu'à 24 fois inférieure à celle des World Action Models (WAM) opérant dans l'espace pixel. L'architecture résout un compromis structurel dans les VLA (Vision-Language-Action models) actuels : ces systèmes exploitent le préentraînement vision-langage à grande échelle pour le contrôle sémantique, mais restent aveugles à la dynamique physique de la scène. Les WAM corrigent ce défaut en conditionnant la politique sur une prédiction du futur, mais leur génération vidéo pixel par pixel les rend prohibitifs pour le temps réel. LaWAM substitue à cette vidéo des sous-objectifs visuels latents compacts, calculés dans l'espace de représentation d'un modèle de fondation vision préentraîné. Son composant central, le Latent World Model (LaWM), réutilise un décodeur forward pour prédire les caractéristiques d'observation future, éliminant la redondance au niveau pixel. Le résultat est une planification dynamique compatible avec les contraintes de latence du contrôle robotique industriel. Ce travail prend place dans la convergence entre grands modèles et robotique, après que pi-0 (Physical Intelligence) et GR00T de NVIDIA ont validé l'approche VLA mais buté sur le demo-to-reality gap et la latence d'inférence. LaWAM propose une voie d'intégration plus réaliste : 187 ms par inférence autorise des boucles de contrôle à environ 5 Hz, suffisantes pour de nombreuses tâches de manipulation structurée. Le préprint ne mentionne ni partenariat industriel ni timeline de déploiement ; il s'agit à ce stade d'une contribution académique sans produit shipé ni pilote annoncé. La prochaine étape naturelle sera de valider la robustesse hors distribution sur des environnements plus variés que LIBERO et RoboTwin, qui restent des benchmarks relativement contrôlés.

RechercheActu
1 source
CrossMaps : cartographie sémantique à vocabulaire ouvert avec estimation de confiance pour la navigation de rovers
258arXiv cs.RO 

CrossMaps : cartographie sémantique à vocabulaire ouvert avec estimation de confiance pour la navigation de rovers

Une équipe de chercheurs a publié le 16 juin 2026 sur arXiv (identifiant 2606.16935) les travaux relatifs à CrossMaps, un pipeline de cartographie sémantique en temps réel conçu pour la navigation de rovers autonomes. Le système exploite des données RGB-D pour construire des cartes interrogeables en langage naturel, en s'appuyant sur des embeddings CLIP multi-échelles fusionnés avec un mécanisme de pondération par confiance. L'architecture repose sur une mémoire duale : une mémoire court terme (STM) qui agrège les observations visuelles bruitées en combinant des métriques de confiance géométrique, sémantique et temporelle, et une mémoire long terme (LTM) dans laquelle sont promus les points d'intérêt stables et cohérents, constituant ainsi des repères sémantiques persistants. Le système est dimensionné pour fonctionner sur un UGV équipé d'un module Jetson Orin de NVIDIA, couplé à un pipeline SLAM, et génère des cartes de chaleur sémantiques interrogeables par requêtes en langage naturel. L'intérêt de CrossMaps réside dans sa gestion explicite de la qualité perceptive, fiabilité du capteur de profondeur, artefacts d'éclairage, densité des données, directement intégrée dans la représentation spatiale, un aspect souvent traité de façon ad hoc dans les systèmes concurrents. En distinguant observations transitoires et connaissances consolidées via la dualité STM/LTM, l'architecture vise à réduire le gap sim-to-real classique des systèmes de navigation sémantique déployés en conditions dégradées. Pour un intégrateur ou un responsable de flotte robotique, cela signifie potentiellement une navigation plus robuste dans des environnements industriels non-structurés sans nécessiter un réentraînement des modèles pour chaque nouveau vocabulaire d'objets. CrossMaps s'inscrit dans la lignée directe des VLMaps (travaux de Huang et al., 2023), qui ont popularisé la fusion de caractéristiques CLIP dans des cartes spatiales 3D pour la navigation en langage naturel. La différence revendiquée ici est la couche de gestion de la confiance et la séparation mémoire court/long terme, absentes dans VLMaps. L'article reste un preprint non encore évalué par les pairs, et les performances réelles sur un UGV physique en dehors de conditions contrôlées ne sont pas détaillées dans l'abstract, un point à vérifier dans le corps du papier avant toute extrapolation industrielle. Les suites naturelles incluent une comparaison quantitative face à ConceptFusion ou LERF, et un déploiement en environnements extérieurs non-structurés.

RecherchePaper
1 source
DIFF-IPPO : planification de trajectoires informatives par diffusion avec cartes de croyance en vocabulaire ouvert
259arXiv cs.RO 

DIFF-IPPO : planification de trajectoires informatives par diffusion avec cartes de croyance en vocabulaire ouvert

Des chercheurs ont publié sur arXiv (référence 2606.16780) DIFF-IPPO, une pipeline combinant un générateur de cartes de croyance à vocabulaire ouvert avec un planificateur basé sur la diffusion, pour orchestrer des trajectoires globales de drones en exploration autonome. Le système produit des trajectoires qui concentrent la couverture sensorielle sur les zones à haute probabilité d'intérêt, atteignant des scores de détection normalisés entre 81,49 % et 86,55 % selon les scénarios de dataset testés. La validation s'appuie sur un scénario simulé de recherche et sauvetage : une flotte de cinq drones, en mode de génération de trajectoires conditionnée par les cartes de croyance en batch, localise un bâtiment en feu parmi plusieurs candidats en 3,5 minutes en moyenne. L'apport principal de DIFF-IPPO est d'appliquer les modèles de diffusion à la planification de trajectoires informatives (IPP) conditionnée sur des distributions non-gaussiennes et multimodales. La planification IPP classique repose typiquement sur des processus gaussiens, inadaptés aux cartes de croyance complexes produites par la perception sémantique à vocabulaire ouvert, du type de celles issues de modèles vision-langage comme CLIP. En permettant un conditionnement direct sur ces représentations riches, l'approche ouvre des perspectives pour les missions d'inspection industrielle, la surveillance environnementale continue, ou la recherche et sauvetage, en réduisant le temps de détection sans exiger une couverture exhaustive de la zone. Pour un intégrateur de systèmes multi-drones, c'est un signal intéressant : la génération de trajectoires globales en batch, plutôt que la planification myope, devient praticable avec des perceptions à vocabulaire libre. L'IPP est un axe de recherche actif où robots et drones doivent planifier des trajectoires maximisant le gain d'information ou la probabilité de détection. Les méthodes traditionnelles peinent face aux distributions multimodales ; les planificateurs par diffusion, déjà adoptés en robotique mobile et manipulation (DiffusionPolicy, Diffuser), n'avaient pas encore été appliqués à l'IPP global sur cartes sémantiques. DIFF-IPPO comble ce manque, mais la validation reste entièrement en simulation, un gap sim-to-real non encore résolu. Les scénarios multi-agents à cinq drones demandent à être confirmés sur plateforme physique, et la robustesse face à des cartes de croyance bruitées ou incomplètes reste une question ouverte pour les prochaines étapes expérimentales.

RecherchePaper
1 source
PATCH : suivi des innovations de patchs latents conditionné par les séquences d'actions pour la manipulation robotique
260arXiv cs.RO 

PATCH : suivi des innovations de patchs latents conditionné par les séquences d'actions pour la manipulation robotique

Des chercheurs présentent PATCH (Action-Chunk-Conditioned Latent Patch Innovation Monitor), un moniteur d'exécution temps réel publié sur arXiv (2606.16690) conçu pour rendre les politiques de manipulation robotique plus robustes lors du déploiement en environnements ouverts. Le système s'appuie sur le "chunk" d'actions courant, séquence de commandes prédites d'un coup par la politique apprise, pour définir un corridor d'exécution projeté dans l'espace latent. À l'intérieur de ce corridor, PATCH prédit l'évolution attendue des patches visuels latents et accumule les résidus persistants que le mouvement propre du robot n'explique pas. Ces résidus constituent un signal d'intervention localisé : le composant PATCH-Router peut suspendre l'exécution, sélectionner une source de récupération disponible, puis reprendre la politique originale une fois l'innovation locale dissipée. Des expériences sur données réelles de déploiement montrent des déclenchements plus stables et plus contextuellement pertinents que les moniteurs concurrents évalués. L'enjeu est précis : les politiques de manipulation à base d'apprentissage (politiques de diffusion, modèles VLA) produisent des résultats convaincants en laboratoire mais restent fragiles dès qu'un objet bouge inopinément, qu'une occlusion transitoire survient ou qu'une perturbation apparaît près de la trajectoire prévue. Les moniteurs existants s'appuient sur des anomalies d'observation globales, l'incertitude de la politique ou des différences frame-à-frame, des mécanismes qui peinent à distinguer un risque d'exécution réel d'une variation visuelle bénigne (reflet, passage d'une personne en fond). PATCH déplace l'analyse au niveau local et conditionné sur l'intention du robot, ce qui réduit les faux positifs et permet une reprise automatique plutôt qu'un arrêt définitif. Pour un intégrateur industriel, cela change la logique de supervision : au lieu d'une e-stop humaine systématique, on dispose d'un mécanisme de récupération autonome gradué. L'article s'inscrit dans une vague de travaux qui cherchent à combler le "deployment gap" des VLA et des politiques de diffusion, notamment après que des systèmes comme Pi-0 (Physical Intelligence) ou RDT ont démontré des performances impressionnantes en conditions contrôlées. PATCH ne cherche pas à remplacer la politique de base mais à la surveiller et à la relancer de façon ciblée, une approche modulaire compatible avec n'importe quelle politique pré-entraînée. Aucun partenaire industriel ni calendrier de commercialisation n'est mentionné ; il s'agit pour l'instant d'une contribution de recherche accompagnée d'une page projet publique, sans déploiement à l'échelle annoncé.

RechercheOpinion
1 source
Augmentation de l'environnement orientée tâche pour une navigation fiable via diffusion conditionnelle protégée
261arXiv cs.RO 

Augmentation de l'environnement orientée tâche pour une navigation fiable via diffusion conditionnelle protégée

Une équipe de chercheurs présente SCoDA (Shielded Conditional Diffusion for Environment Augmentation), publiée sur arXiv (2606.15154) en juin 2026, qui inverse la logique classique de la navigation robotique sous observabilité partielle. Plutôt que d'améliorer le robot via de meilleurs capteurs ou la planification dans l'espace des croyances, SCoDA optimise le placement de marqueurs fiduciels visuels dans l'environnement pour que le robot puisse exécuter une trajectoire planifiée de manière fiable. Le système prend en entrée une carte de l'environnement, une trajectoire de tâche et un budget limité de marqueurs, puis détermine où les poser pour éviter l'accumulation d'erreur de localisation aux points critiques de la trajectoire. Sur des benchmarks simulés et des déploiements matériels réels, SCoDA améliore la fiabilité d'exécution et le temps de complétion par rapport aux baselines comparées, sans que les marges exactes soient détaillées dans le préprint. L'intérêt industriel est concret : dans un entrepôt ou une usine où les systèmes AMR (autonomous mobile robots) peinent dans des zones pauvres en repères visuels, quelques marqueurs bien placés peuvent valoir plus qu'un upgrade capteur. SCoDA modélise ce problème via un modèle de diffusion conditionnel, entraîné à apprendre la distribution des configurations de marqueurs performantes en fonction de la trajectoire, des perturbations attendues et du profil d'exécution souhaité. Son "shielded sampler" identifie les points de la trajectoire où une correction de pose est indispensable pour ne pas compromettre le contrôle, et oriente la génération vers des agencements respectant le budget de marqueurs. Cela évite la propagation coûteuse d'incertitude typique du belief-space planning, souvent fragile dans les zones mal couvertes par les capteurs embarqués. SCoDA s'inscrit dans une tendance qui applique les modèles de diffusion à la planification et à la configuration robotique, aux côtés des Visual Language Action models (VLA) et des techniques de localisation active. Sa particularité est de cibler le côté infrastructure plutôt que l'embarqué, une direction peu explorée face aux acteurs dominants centrés sur le SLAM, la fusion capteurs ou l'active localization onboard. Le code, les modèles et le dataset sont disponibles sur scoda-diffusion.github.io. Aucune timeline de déploiement industriel n'est annoncée, et le travail reste à ce stade un préprint non soumis à peer review.

UELes flottes AMR déployées dans les entrepôts et usines européens pourraient bénéficier indirectement de cette approche, qui améliore la fiabilité de navigation sans mise à niveau capteur coûteuse, mais aucun partenaire ou déploiement européen n'est mentionné.

RecherchePaper
1 source
Un cadre de téléopération bilatérale pour la manipulation dextérique
262arXiv cs.RO 

Un cadre de téléopération bilatérale pour la manipulation dextérique

Une équipe de chercheurs publie, dans un preprint arXiv déposé en juin 2026 (arXiv:2606.15434), un système modulaire de téleopération bilatérale conçu pour la manipulation dextre en environnements réels à fort contact. L'architecture proposée couple une interface côté opérateur à un bras robotique compliant et à une main mécanique dextre côté robot, dans une boucle de contrôle unifiée. Quatre fonctionnalités centrales sont documentées : le retargeting de posture de main par positions (adaptation des commandes d'une main humaine vers une main robotique de morphologie différente), la commande différentielle du bras, le retour haptique multi-échelle, et un mécanisme de contrôle partagé pour stabiliser les phases de manipulation en contact. Le framework est validé sur une tâche réelle de manipulation dextre, sans que les métriques de performance - latence, temps de cycle, taux de succès - ne soient communiquées dans le résumé public disponible. L'intérêt principal de ce travail pour les équipes de recherche et les intégrateurs ne réside pas dans les performances brutes du système de téleopération lui-même, mais dans sa vocation déclarée de plateforme de collecte de démonstrations haute qualité pour l'apprentissage par imitation (learning from demonstration). À l'heure où les architectures VLA (Vision-Language-Action) - comme pi0 de Physical Intelligence ou GR00T N2 de NVIDIA - exigent des datasets massifs de trajectoires expertes en manipulation fine, la qualité du pipeline de collecte devient un goulot d'étranglement critique. Les auteurs identifient aussi trois problèmes de conception restant ouverts : le mismatch cross-embodiment (écart morphologique entre la main de l'opérateur et celle du robot), la granularité du retour haptique, et le dosage optimal du contrôle partagé. Ce framework s'inscrit dans une tendance de fond visant à standardiser l'infrastructure de collecte de données téléopérées, dans la lignée du système ALOHA de Stanford ou de la plateforme UMI. Les acteurs européens comme Enchanted Tools (France) ou les équipes robotique de l'INRIA travaillent sur des problématiques similaires de couplage haptique et de retargeting pour la manipulation fine. Ce preprint ne présente pas de chiffres de déploiement ni de partenariats industriels annoncés : il s'agit d'une contribution académique amont, dont la suite logique serait la publication d'un dataset de démonstrations et de benchmarks comparatifs sur des tâches de manipulation standardisées.

UELes équipes françaises (Enchanted Tools, INRIA) travaillent sur des problématiques similaires de couplage haptique et de retargeting, ce framework pourrait alimenter leurs pipelines de collecte de démonstrations pour entraîner des modèles VLA.

RecherchePaper
1 source
Reconnaissance d'objets et de positions de supports de charge par apprentissage profond pour véhicules logistiques autonomes
263arXiv cs.RO 

Reconnaissance d'objets et de positions de supports de charge par apprentissage profond pour véhicules logistiques autonomes

Des chercheurs ont déposé sur arXiv fin juin 2026 (référence 2606.16042) une méthode de détection automatique et d'estimation de pose de porte-charges pour véhicules logistiques autonomes. L'approche repose sur un réseau de neurones convolutionnel (CNN) entraîné à reconnaître des points de repère (landmarks) prédéfinis sur les supports de charge à partir d'images RGBD (couleur + profondeur). Ces landmarks détectés sont ensuite combinés avec une connaissance géométrique préalable du porte-charges pour calculer sa position et son orientation tridimensionnelle dans l'espace de travail. La méthode a été validée à travers des expériences extensives incluant des implémentations à la fois logicielles et matérielles, en conditions proches d'un environnement industriel réel. Le goulot d'étranglement classique de l'intralogistique autonome se situe à la phase de pickup : un AMR doit s'aligner avec précision sous un bac ou une palette avant de l'engager mécaniquement, sans marge d'erreur. Les approches traditionnelles recourent à des marqueurs ArUco, des codes-barres au sol ou des infrastructures de balisage qui exigent maintenance et conditions d'éclairage contrôlées. L'utilisation d'un CNN sur données RGBD promet une robustesse accrue aux variations d'environnement, sans infrastructure dédiée. Les auteurs qualifient la précision obtenue de "suffisante pour une détection fiable en milieu industriel", formulation prudente qui signale des résultats exploitables sans prétendre dépasser l'état de l'art. Pour un intégrateur d'AMR, cela valide une piste vision-only pour le pick-and-place de porte-charges standardisés. La suppression de la dépendance à l'infrastructure fixe est la tendance de fond dans l'automatisation d'entrepôts, portée par la montée en puissance des flottes AMR chez des acteurs comme Exotec (France), Geek+ ou 6 River Systems, tous confrontés à ce problème de localisation fine au pickup. L'estimation de pose par vision RGBD n'est pas nouvelle en robotique académique, mais son application systématique aux porte-charges industriels standardisés reste peu couverte. L'article ne mentionne ni partenariat industriel, ni timeline de déploiement, ni métriques quantitatives de précision publiables : il s'agit d'une contribution de recherche universitaire, pas d'un produit shipé ni d'une annonce commerciale.

UEDes acteurs AMR européens comme Exotec (France) pourraient bénéficier de cette approche vision-only sans infrastructure de balisage, mais aucun partenariat ni déploiement européen n'est mentionné dans la contribution.

RecherchePaper
1 source
DynaHMRC : collaboration décentralisée de robots hétérogènes pour des tâches dynamiques via les grands modèles de langage
264arXiv cs.RO 

DynaHMRC : collaboration décentralisée de robots hétérogènes pour des tâches dynamiques via les grands modèles de langage

Une équipe de chercheurs a publié en juin 2026 sur arXiv (référence 2606.14882) DynaHMRC, un cadre décentralisé de coordination multi-robots hétérogènes piloté par des grands modèles de langage (LLM). Contrairement aux architectures classiques à planificateur central, DynaHMRC attribue à chaque robot un agent LLM individuel, dit "role-aware", qui orchestre la collaboration en quatre étapes en boucle fermée : auto-description des capacités, allocation des tâches par enchères de leadership, élection d'un robot chef, puis exécution réflexive avec retour d'état. Le système repose sur des interfaces exécutables standardisées permettant aux robots de types différents (bras, véhicules, drones) de coopérer sans schéma de communication rigide. Pour l'évaluation, les auteurs ont construit un benchmark couvrant trois familles de tâches, quatre variations dynamiques (perturbations en cours d'exécution, changements d'objectifs, pannes de robots) et six configurations d'équipes. Les résultats annoncés montrent des taux de succès supérieurs aux baselines existantes, avec moins d'actions et moins d'échanges de messages entre agents. L'intérêt principal de cette approche est d'attaquer le goulot d'étranglement du contexte long : un planificateur LLM centralisé qui gère dix robots simultanément doit traiter un contexte proportionnel à la taille de l'équipe, ce qui dégrade la qualité du raisonnement. En distribuant la charge cognitive, DynaHMRC conserve des contextes locaux courts et maintient des performances cohérentes lorsque la taille de l'équipe augmente, au moins dans les configurations testées. L'article propose aussi une méthodologie pour constituer des jeux de données domaine-spécifiques et affiner des LLM open-source, réduisant la dépendance aux modèles propriétaires coûteux pour des tâches robotiques spécialisées. Il faut toutefois cadrer ces résultats : tout se passe en simulation, sans déploiement terrain rapporté. Le domaine des architectures multi-agents LLM pour la robotique est très actif, avec des approches concurrentes comme SAMA, CoELA ou les frameworks basés sur GPT-4o pour la planification hiérarchique. La contribution de DynaHMRC est architecturale plutôt que matérielle, et sa valeur réelle dépendra de sa tenue face au sim-to-real gap, une limite que les auteurs n'adressent pas encore.

RecherchePaper
1 source
ART-Glove : un gant tactile articulé pour capturer les interactions dextériques en contact
265arXiv cs.RO 

ART-Glove : un gant tactile articulé pour capturer les interactions dextériques en contact

Des chercheurs ont publié sur arXiv (arXiv:2606.16370) les spécifications de l'ART-Glove (Articulated Tactile Glove), un gant instrumenté conçu pour capturer des démonstrations de manipulation dextère en préservant la mobilité naturelle de la main humaine. Le système intègre 16 surfaces rigides fonctionnelles couvrant les doigts, le pouce et la paume, reliées par 22 articulations anatomiquement alignées qui suivent le mouvement de la main en temps réel. La capture repose sur deux modalités complémentaires : un encodeur mécanique pour les positions articulaires et une matrice de capteurs piézorésistifs pour les contacts cutanés. Le résultat est une acquisition synchronisée à 120 Hz de 22 degrés de liberté (DoF) articulaires et de 2 048 taxels tactiles, soit une résolution spatiale du contact parmi les plus denses publiées pour ce type de dispositif portable. L'enjeu technique que cible ART-Glove est le goulet d'étranglement de la collecte de données pour l'apprentissage dextère des robots. Les approches actuelles de téléopération ou de capture de mouvement peinent à enregistrer simultanément la géométrie du contact et la cinématique de la main, deux informations pourtant indispensables pour qu'un réseau de politique (notamment les VLA, Vision-Language-Action models) puisse reproduire des manipulations fines comme saisir un objet fragile ou assembler un connecteur. En rendant la géométrie de contact explicite plutôt qu'inférée, le gant vise à réduire le fossé sim-to-real dans les pipelines d'imitation learning pour mains robotiques, un problème notoire qui freine le passage à l'échelle industrielle. Le contexte de ce travail s'inscrit dans une dynamique intense autour de la manipulation dextère : des projets comme DEXTAH (MIT), DexPilot (NVIDIA) ou les gants de capture de Shadow Robot ont montré l'intérêt de l'instrumentation côté opérateur humain, mais aucun ne combine à cette résolution les deux canaux cinématique et tactile sur des surfaces rigides géométriquement définies. Le papier reste pour l'heure un preprint sans validation industrielle annoncée ni partenaire commercial identifié. Les prochaines étapes naturelles seraient des expériences de transfert direct vers des mains robotiques comme la LEAP Hand ou la Dexterous Hand d'Allegro, et une évaluation des politiques apprises sur des tâches de manipulation contact-riche en dehors du laboratoire.

RecherchePaper
1 source
LOPAL : apprentissage actif local sensible aux performances à partir de démonstrations imparfaites
266arXiv cs.RO 

LOPAL : apprentissage actif local sensible aux performances à partir de démonstrations imparfaites

Des chercheurs ont publié sur arXiv (référence 2606.16888) une méthode baptisée LOPAL (Local Performance-Aware Active Learning), conçue pour améliorer l'apprentissage par démonstration robotique en tenant compte de la qualité variable à l'intérieur même d'une démonstration humaine. L'approche repose sur deux composants complémentaires : d'abord, un modèle de mélange de gaussiennes (GMM) qui encode simultanément les trajectoires démontrées et une évaluation locale de leur qualité, permettant de générer des trajectoires qui sélectionnent et combinent les meilleures portions de chaque démonstration imparfaite ; ensuite, un mécanisme d'acquisition active de données qui identifie les zones où les données de qualité font défaut et sollicite l'opérateur humain pour fournir des corrections via un système d'autonomie partagée, pendant que le robot continue d'exécuter le comportement appris de façon autonome. Validée sur une tâche réelle d'inspection de tuyauterie, LOPAL atteint une amélioration de 27,31 % des performances par rapport aux démonstrations initiales, tout en réduisant l'effort de collecte de données. L'intérêt industriel de cette approche est tangible pour les intégrateurs et les responsables de production qui déploient des robots sur des tâches répétitives à variation fine. Le verrou que LOPAL cherche à lever est bien connu : les humains sont des démonstrateurs incohérents, et les méthodes classiques de LfD (imitation directe, GAIL, etc.) traitent chaque démonstration comme globalement bonne ou mauvaise. En exploitant la granularité locale, le système peut extraire de la valeur même de gestes imparfaits, ce qui réduit le nombre de démos nécessaires et accélère la mise en service. Le mécanisme d'autonomie partagée est particulièrement pertinent pour les environnements industriels où l'opérateur peut intervenir ponctuellement sans reprendre le contrôle total. L'apprentissage par démonstration est un domaine actif depuis plus d'une décennie, avec des approches comme DMP (Dynamic Movement Primitives), ProDMP, ou plus récemment les politiques de diffusion (Diffusion Policy) et les VLA (Vision-Language-Action models). LOPAL s'inscrit dans la lignée des méthodes basées sur les GMM, popularisées notamment par les travaux de l'EPFL et de l'IIT, mais en y ajoutant une couche d'apprentissage actif et de correction en ligne. Le papier reste au stade académique (pas de déploiement industriel annoncé), et les résultats sur la tâche d'inspection de pipes, bien que convaincants, portent sur un environnement contrôlé. Les prochaines étapes naturelles concernent la généralisation à des tâches multi-contact et la robustesse face à des perturbations environnementales non anticipées.

RecherchePaper
1 source
SGM-SLAM : correspondance de graphes de scène pour un SLAM distribué efficace en données
267arXiv cs.RO 

SGM-SLAM : correspondance de graphes de scène pour un SLAM distribué efficace en données

Une équipe de chercheurs publie SGM-SLAM (arXiv:2606.16881, juin 2026), un framework de cartographie et localisation simultanées (SLAM) distribué, conçu pour des flottes de robots équipés de LiDAR, caméras et capteurs inertiels. Sa singularité revendiquée : c'est, selon les auteurs, la première approche de mise en correspondance de graphes de scènes opérant uniquement à partir de labels d'objets et de centroïdes, sans descripteurs de features bas niveau. Le système génère deux couches de représentation à partir de nuages de points RGB-LiDAR fusionnés : une couche de segmentation sémantique et une couche d'objets délimités discrets, accompagnant les trajectoires estimées de chaque robot. Ces graphes sont échangés entre robots voisins via un protocole multi-étapes conçu pour limiter la bande passante consommée. Les expériences couvrent simulation et collecte terrain sur robots à pattes, en environnements intérieurs et extérieurs. Pour les intégrateurs de flottes robotiques, le goulot d'étranglement habituel du SLAM distribué est précisément la bande passante : partager des descripteurs visuels ou LiDAR entre robots génère des volumes de données élevés, problématiques dans les environnements RF dégradés typiques de l'industrie (entrepôts métalliques, sous-sols, sites en chantier). En réduisant l'échange à des métadonnées sémantiques légères (classe d'objet + position centroïde), SGM-SLAM affiche un coût de communication structurellement inférieur aux méthodes feature-based. La validation sur robots à pattes, réputés plus difficiles à stabiliser dynamiquement que les AMR à roues, renforce la portée pratique des résultats. Si les performances se maintiennent à l'échelle en nombre de robots et en taille d'environnement, le framework pourrait changer le calcul de faisabilité pour les opérations multi-robots en connectivité limitée. Le SLAM distribué multi-robots est un chantier actif depuis plus d'une décennie. Des systèmes comme Kimera-Multi (MIT SPARK Lab), DiSCo-SLAM et Swarm-SLAM ont progressivement amélioré la précision tout en réduisant les échanges de données, mais aucun n'avait jusqu'ici poussé l'abstraction au niveau objet seul. SGM-SLAM s'inscrit dans la tendance plus large des graphes de scènes sémantiques, héritée de la compréhension de scènes 3D et de la robotique de manipulation, et l'applique ici à l'exploration collective. Les plateformes à pattes testées correspondent aux types Boston Dynamics Spot ou ANYmal, très présentes dans l'inspection industrielle et la réponse aux catastrophes. L'article, en pré-publication sur arXiv, ne mentionne pas de disponibilité de code open-source ni de timeline de déploiement applicatif.

UETechnologie potentiellement utile pour les équipes européennes déployant des flottes d'inspection en environnements RF dégradés, mais aucun acteur FR/EU impliqué et aucun code open-source disponible à ce stade.

RecherchePaper
1 source
Nouvelles tâches par compétences réutilisables : experts compositionnels pour l'apprentissage continu incarné
268arXiv cs.RO 

Nouvelles tâches par compétences réutilisables : experts compositionnels pour l'apprentissage continu incarné

Des chercheurs ont publié en juin 2026 sur arXiv (2606.15685) un framework appelé SCE (Skill-Compositional Experts), conçu pour permettre à des robots manipulateurs d'apprendre de nouvelles tâches en continu sans effacer les comportements déjà maîtrisés. L'approche repose sur deux blocs : un mécanisme de Compositional Skill Grounding (CSG) qui décompose des démonstrations en primitives réutilisables, puis un système DETE (Dual Execution-and-Transition Experts) à deux branches, l'une assurant l'exécution de chaque skill et l'autre pilotant les transitions entre eux pour produire un comportement cohérent. Les évaluations portent sur les benchmarks LIBERO (manipulation en simulation) ainsi que sur des tâches en environnement réel, avec des gains de rétention et de performance globale par rapport aux méthodes de référence. Le problème visé, le "catastrophic forgetting" en boucle fermée, est nettement plus sévère qu'en continual learning classique : sous contrôle séquentiel, la dérive des représentations internes (feature drift) s'accumule et dégrade progressivement les comportements antérieurs. Pour les industriels déployant des bras robotiques multi-tâches en logistique, assemblage ou alimentation, c'est un verrou réel : introduire une nouvelle tâche risque d'invalider les précédentes, imposant des revalidations coûteuses. SCE propose de structurer explicitement les skills en une base réutilisable, ce qui pourrait, si cela tient à l'échelle, réduire ce surcoût d'intégration. À noter cependant : il s'agit d'un preprint non encore évalué par les pairs, et les résultats en environnement réel restent peu détaillés dans l'abstract. L'Embodied Continual Learning a gagné en visibilité avec l'essor des politiques robotiques généralisables, notamment sous l'influence des Visual Language Action models (VLA) et des travaux de sim-to-real transfer. Les benchmarks LIBERO sont devenus une référence pour évaluer la généralisation des politiques de manipulation. Les approches concurrentes, comme SkillDiffuser ou les méthodes à mémoire épisodique, traitent la même problématique sans structurer explicitement les transitions entre skills, ce qui constitue la contribution centrale de SCE. Les auteurs publient une page projet mais n'annoncent ni partenariat industriel ni timeline de déploiement, ce qui situe ce travail à la frontière entre preuve de concept académique et transfert applicatif.

RecherchePaper
1 source
R2RDreamer : augmentation de données 3D pour des politiques de manipulation 2D spatialement généralisées
269arXiv cs.RO 

R2RDreamer : augmentation de données 3D pour des politiques de manipulation 2D spatialement généralisées

Des chercheurs présentent R2RDreamer, un cadre d'augmentation de données pour entraîner des politiques de manipulation robotique à faible coût de collecte, publié en préprint sur arXiv (2606.17040) en juin 2026. Le problème ciblé est la généralisation spatiale : une politique apprise par imitation sur quelques démonstrations réelles échoue souvent dès que l'objet est légèrement déplacé, la caméra repositionée, ou le bras robotique reconfiguré. R2RDreamer part d'un nombre limité de démonstrations réelles et en génère artificiellement des variantes cohérentes. Son pipeline fonctionne en deux étapes : d'abord, un module 3D léger édite les nuages de points incomplets de la scène et les trajectoires de l'effecteur terminal dans un référentiel commun ; ensuite, ces scènes modifiées sont projetées en vidéos de contrôle masquées (avec raisonnement occlusion-aware), puis complétées en séquences RGB temporellement cohérentes par un modèle image-vers-vidéo à contrôle dense. Les expériences valident la méthode sur des tâches de manipulation avec déplacement spatial, en combinaison avec des politiques de type diffusion 2D et des politiques vision-langage-action (VLA). Ce travail s'attaque à un verrou concret du déploiement industriel : le coût prohibitif de la collecte de démonstrations multi-pose, multi-viewpoint en environnement réel. Les approches concurrentes basées sur la simulation (MuJoCo, Isaac Gym) exigent une modélisation précise des objets et restent exposées au sim-to-real gap. Les méthodes real-to-real existantes contournent ce gap mais requièrent une reconstruction 3D complète et produisent des observations adaptées aux politiques sur nuages de points, inadaptées aux pipelines RGB classiques. R2RDreamer déplace la complétion visuelle dans l'espace vidéo 2D, ce qui le rend compatible avec les architectures VLA dominantes comme pi0 ou OpenVLA, sans nécessiter une reconstruction de scène exhaustive. C'est une avancée méthodologique qui pourrait réduire les besoins en données téléopérées d'un facteur significatif, même si les expériences rapportées ne quantifient pas encore de ratio précis. R2RDreamer s'inscrit dans une famille de travaux real-to-real (RoboAgent, GenAug, SceneAug) cherchant à s'affranchir de la simulation. La nouveauté réside dans l'hybridation : garder la rigueur géométrique de l'édition 3D pour les trajectoires, mais déléguer la cohérence visuelle à un modèle vidéo génératif, évitant ainsi les artefacts de rendu 3D. Côté compétiteurs, des approches comme AugmentationX ou les méthodes de diffusion in-painting (Paint-it, RoboGen) font le même pari mais sans édition jointe trajectoire-observation. Aucun partenaire industriel ni calendrier de transfert ne sont mentionnés dans ce preprint : il s'agit d'une contribution de recherche fondamentale, et l'étape suivante probable sera une évaluation sur des plateformes matérielles standardisées (Franka, UR5, ou une humanoïde) avec des benchmarks publics type RoboMimic ou LIBERO.

RecherchePaper
1 source
C-3TO : optimisation continue de trajectoires 3D sur champs de distances euclidiennes signées neuronaux
270arXiv cs.RO 

C-3TO : optimisation continue de trajectoires 3D sur champs de distances euclidiennes signées neuronaux

Une équipe de recherche a publié sur arXiv (identifiant 2509.20084v2) un framework de planification de trajectoires 3D baptisé C-3TO (Continuous 3D Trajectory Optimization), ciblant la navigation autonome de drones en environnements encombrés. Le coeur du système repose sur un champ de distance signée euclidien (ESDF) neuronal mis à jour en temps réel, sur lequel les trajectoires sont optimisées de façon continue plutôt que sur une grille discrétisée. Celles-ci sont paramétrées par des polynômes de cinquième ordre, ce qui garantit la continuité des dérivées jusqu'à l'accélération et au-delà. L'optimisation s'effectue en deux étapes non linéaires successives qui mettent en balance efficacité computationnelle, sécurité vis-à-vis des obstacles et régularité du mouvement. Les expériences menées démontrent que le système génère des trajectoires à la fois collision-free et dynamiquement faisables. L'intérêt de cette approche tient à un point précis : les méthodes classiques construisent des ESDFs discrètes et interpolent entre les voxels pour obtenir les gradients, ce qui introduit des erreurs numériques lors de l'optimisation. En travaillant directement sur une représentation neuronale continue, C-3TO dispose de gradients exacts sur l'intégralité du chemin, pas seulement aux noeuds d'une grille. Pour les systèmes de replanification locale embarquée sur drone, cela réduit potentiellement le risque de trajectoires sous-optimales autour d'obstacles complexes. La flexibilité du framework dans le réglage de la taille des fenêtres locales et des paramètres d'optimisation le rend adaptable sans redéveloppement majeur, un argument pertinent pour les équipes d'intégration en robotique aérienne. Le domaine de la planification de trajectoires en temps réel pour UAV est actif depuis plusieurs années, avec des travaux notables autour des EGO-Planner (Zhu et al., 2021) et FASTER (Tordesillas et al., 2022), qui s'appuient eux aussi sur des représentations de distance pour l'évitement d'obstacles. C-3TO se positionne comme une évolution méthodologique de cet écosystème, en substituant le réseau neuronal à la grille voxel traditionnelle. Le paper n'annonce pas de déploiement matériel ni de validation sur plateforme physique en conditions réelles ; les résultats présentés restent à ce stade expérimentaux, et la robustesse sim-to-real n'est pas adressée explicitement.

RecherchePaper
1 source
Apprentissage par renforcement avec estimateur de dynamique interne pour la manipulation aérienne en environnement incertain
271arXiv cs.RO 

Apprentissage par renforcement avec estimateur de dynamique interne pour la manipulation aérienne en environnement incertain

Des chercheurs ont publié sur arXiv (preprint 2606.16621) une architecture de contrôle hiérarchique pour manipulateurs aériens, visant à résoudre l'un des problèmes les plus épineux de la robotique de terrain : faire travailler un bras articulé monté sur drone sans que les mouvements du bras ne déstabilisent l'engin, même quand la charge utile varie de façon imprévue. Le système combine un apprentissage par renforcement (RL) en boucle externe avec un estimateur de dynamique en boucle interne. La couche RL traduit des cibles en 6 degrés de liberté (DOF) pour l'effecteur terminal en commandes coordonnées pour l'ensemble du corps de l'engin, sans nécessiter un modèle dynamique couplé précis. La boucle interne prend le relais pour compenser en temps réel les perturbations inertielles transitoires, notamment lors de changements brusques de payload ou de mouvements rapides du bras à 3-DOF. Les expériences matérielles ont été conduites sur un quadrotor instrumenté à cet effet, dans des conditions de charge variable. Comparée à deux baselines de référence (RL+PID et RL+INDI+PID), l'approche réduit l'erreur de suivi de l'effecteur terminal et améliore le taux de succès des tâches. Ce résultat est pertinent parce que le couplage dynamique bras-drone reste le principal frein à la manipulation aérienne fiable en conditions réelles : chaque mouvement du bras modifie le centre de masse et génère des couples parasites que les contrôleurs classiques peinent à absorber. En séparant la couche d'apprentissage (qui gère la coordination tâche-corps) de la couche d'estimation (qui absorbe les incertitudes à basse latence), les auteurs proposent une architecture modulaire qui ne dépend pas d'un modèle système précis, ce qui simplifie le passage du simulateur au matériel réel. Pour les intégrateurs industriels qui ciblent l'inspection de structures, la maintenance d'infrastructures ou la construction en hauteur, c'est un verrou technique concret qui se desserre. Le domaine de la manipulation aérienne est encore largement académique, avec des contributions dispersées entre laboratoires européens, américains et asiatiques, sans acteur dominant identifié à ce stade. Côté français, Alerion et quelques spin-offs de l'ISAE-SUPAERO ou de l'ENAC travaillent sur des drones à haute précision, mais sans manipulateur embarqué à ce niveau de sophistication. Ce travail reste un preprint non encore soumis à revue par les pairs, et les expériences rapportées portent sur un prototype unique dans un environnement contrôlé. Les métriques de succès ne sont pas détaillées quantitativement dans le résumé disponible, ce qui rend difficile toute comparaison directe avec l'état de l'art publié. La prochaine étape logique serait une validation sur des tâches réelles en extérieur avec des charges plus lourdes.

UELes laboratoires français actifs sur les drones de précision (Alerion, ISAE-SUPAERO, ENAC) pourraient s'appuyer sur cette architecture modulaire pour progresser vers la manipulation aérienne embarquée, mais aucun impact direct n'est établi à ce stade.

RecherchePaper
1 source
TO-SoFiT : optimisation topologique d'une queue de poisson souple hydraulique pour une locomotion ondulatoire programmable
272arXiv cs.RO 

TO-SoFiT : optimisation topologique d'une queue de poisson souple hydraulique pour une locomotion ondulatoire programmable

Des chercheurs ont mis en ligne en juin 2026 sur arXiv (preprint 2606.15645) une méthode baptisée TO-SoFiT (Topology Optimization of Soft Fish Tail), destinée à automatiser la conception de queues de poissons souples hydrauliques pour la robotique sous-marine biomimétique. Le coeur de l'approche repose sur un modèle issu de la loi de Darcy, augmenté d'un terme de drainage, pour simuler les pressions hydrauliques spatialement variables à l'intérieur de la structure souple, puis les convertir en forces nodales via analyse par éléments finis. Une formulation d'optimisation multi-critères équilibre simultanément l'efficacité de déformation, l'interaction fluide-structure, la fabricabilité géométrique et la rigidité requise pour la nage 3D. L'actionneur obtenu, intégré dans un réseau pneumatique, est validé par simulation sous différentes charges hydrauliques, atteignant des amplitudes d'ondulation réglables et une flexion multiaxe pour le contrôle de profondeur. En cascadant plusieurs segments optimisés, les auteurs obtiennent des schémas de nage programmables à différentes pressions. Le code et les simulations sont disponibles publiquement sur GitHub. Ce travail répond à un verrou persistant de la robotique douce : l'absence de cadre de conception systématique pour des mouvements 3D complexes par actuation hydraulique ou pneumatique. Jusqu'ici, les concepteurs s'appuyaient sur des géométries empiriques, souvent rectangulaires, dont les performances sont sous-optimales. TO-SoFiT démontre en simulation que la topologie optimisée surpasse son équivalent rectangulaire en amplitude d'ondulation et en agilité multiaxe. L'approche formalise également le couplage entre actuation et déformation structurelle, souvent traité de manière découplée dans la littérature, ouvrant une voie vers la co-conception automatisée d'actionneurs souples. La robotique douce sous-marine mobilise plusieurs groupes de référence, dont le MIT CSAIL, Harvard et plusieurs équipes chinoises spécialisées dans les robots-poissons pneumatiques. L'industriel allemand Festo illustre le potentiel commercial du biomimétisme aquatique avec ses projets BionicFinWave et AquaPenguin. TO-SoFiT se positionne avant tout comme un outil de conception amont plutôt que comme un prototype : le preprint ne présente aucune fabrication physique ni test en bassin, ce qui laisse ouverte la question critique du sim-to-real gap, généralement significatif avec les élastomères souples. Les prochaines étapes naturelles sont la fabrication par moulage en silicone et la validation expérimentale, en vue d'applications dans l'inspection de structures sous-marines ou la biologie aquatique.

RecherchePaper
1 source
FlowMPC : amélioration des politiques de correspondance de flux avec des modèles du monde
273arXiv cs.RO 

FlowMPC : amélioration des politiques de correspondance de flux avec des modèles du monde

Un préprint publié sur arXiv en juin 2026 (arXiv:2606.16286) présente FlowMPC, un cadre expérimental qui combine une politique d'imitation par Flow Matching (FM) avec un modèle de monde appris, pour améliorer les performances à l'inférence sans modifier l'entraînement initial. Le framework s'appuie sur TD-MPC2 (Hansen et al., 2024) et recourt à la planification Model Predictive Path Integral (MPPI) pour évaluer des séquences d'actions candidates générées par la politique FM à chaque pas de décision. Les expériences sont conduites sur le benchmark de manipulation ManiSkill (Tao et al., 2025), sur deux tâches : PickCube et PickSingleYCB. Dans les deux cas, l'ajout du modèle de monde améliore les performances par rapport à la politique FM seule, avec des gains particulièrement nets sur le taux de succès en fin d'épisode, l'indicateur le plus exigeant de ces benchmarks. Ce résultat illustre une tendance croissante en robotique apprise : augmenter les politiques d'imitation par du raisonnement prospectif au moment de l'inférence, sans retraining coûteux. Flow Matching est une approche récente pour les espaces d'action multimodaux, typiques des tâches de manipulation, mais elle n'est pas conçue pour maximiser directement un retour cumulatif. FlowMPC comble ce déficit en couplant le FM à un modèle de monde : la politique génère des actions candidates, le planificateur MPPI les filtre selon leur valeur estimée. Ce découplage entraînement/test ouvre une voie pragmatique pour les intégrateurs robotiques, car il permet d'améliorer des politiques déployées sans relancer des pipelines d'entraînement lourds. Ce travail s'inscrit dans un paysage de recherche dense où plusieurs approches cherchent à marier imitation et planification. TD-MPC2, sur lequel FlowMPC s'appuie directement, est une référence établie pour l'apprentissage par renforcement basé sur des modèles. Signé d'un seul auteur et non encore soumis à revue par les pairs, ce preprint reste à un stade préliminaire : les tests se limitent à deux tâches simulées, sans évaluation sur robot physique ni comparaison avec des politiques concurrentes majeures telles que Pi-0 (Physical Intelligence) ou les diffusion policies (Chi et al., 2023). La prochaine étape naturelle serait de valider le transfert sim-to-real et de tester sur des benchmarks de manipulation plus complexes, comme l'assemblage de pièces ou la manipulation d'objets déformables.

RecherchePaper
1 source
Interface cerveau-robot en réalité augmentée pour la manipulation généraliste de bras robotique
274arXiv cs.RO 

Interface cerveau-robot en réalité augmentée pour la manipulation généraliste de bras robotique

Des chercheurs ont déposé sur arXiv (identifiant 2606.16413) un système baptisé AR BRI, pour "Augmented Reality Brain-Robot Interface", permettant à un utilisateur de contrôler un bras robotique via un casque de réalité augmentée couplé à une interface cerveau-machine EEG. Le contrôle repose sur deux modalités complémentaires : le suivi oculaire (eye-tracking) pour désigner l'objet cible dans la scène, et l'imagerie motrice (l'utilisateur imagine un geste physique, ce qui génère un signal EEG détectable) pour déclencher l'action. Des overlays visuels contextuels "Place" et "Use" guident l'utilisateur étape par étape dans un cadre de co-autonomie, où le robot prend en charge l'exécution bas-niveau tandis que l'humain conserve l'intentionnalité. Une étude de faisabilité avec 18 participants sains a couvert trois séquences d'activités quotidiennes : boire, ouvrir un tiroir et utiliser un four. Le score SUS (System Usability Scale) obtenu dépasse 70, seuil qualifié de "Good" selon la classification standard. Ce résultat est notable non pour sa performance brute, mais pour la démonstration d'un paradigme généraliste. Les systèmes BCI-robot existants sont typiquement conçus pour une tâche unique et fixe ; ici, la combinaison eye-tracking et imagerie motrice avec overlays AR permet d'enchaîner plusieurs tâches séquentielles sans reconfiguration du système. Pour les intégrateurs spécialisés en assistance robotique, cela représente un pas vers des interfaces plus flexibles, réduisant potentiellement le coût de développement par cas d'usage. Il faut néanmoins nuancer : l'évaluation ne porte que sur des participants sains, pas sur la population cible (personnes atteintes de handicap moteur), ce qui laisse entière la question centrale des performances en conditions réelles. Le projet s'inscrit dans la tendance des BCI non-invasives pour la commande robotique, par opposition aux approches implantées comme Neuralink ou BrainGate, qui obtiennent de meilleures performances sur des cohortes beaucoup plus restreintes. Les auteurs annoncent des évaluations futures avec la population concernée, notamment des personnes atteintes de SLA ou de lésions médullaires. Aucun partenaire industriel ni calendrier de commercialisation n'est mentionné : il s'agit d'un prototype de recherche académique au stade de preuve de concept, documenté sur ar-bri-manip.github.io.

RecherchePaper
1 source
HOLO-MPPI : planification de mouvement multi-scénarios par optimisation de politique hiérarchique
275arXiv cs.RO 

HOLO-MPPI : planification de mouvement multi-scénarios par optimisation de politique hiérarchique

Des chercheurs ont publié en juin 2026 sur arXiv (référence 2606.16480) HOLO-MPPI (High-level Offline, Low-level Online MPPI), un framework de planification de mouvement conçu pour que des robots opèrent dans des scénarios variés sans recalibrage par scénario. L'architecture repose sur deux niveaux : hors ligne, une politique haut niveau apprend à proposer des plans robustes dans un espace d'actions abstrait, avec un modèle du monde appris pour la simulation interne ; en ligne, cette politique sert de prior adaptatif pour paramétrer l'algorithme MPPI (Model Predictive Path Integral), qui optimise en temps réel les séquences de contrôle bas niveau face aux perturbations locales. Le système a été instancié et évalué sur des tâches de conduite autonome, avec des architectures de modèles et un espace d'actions haut niveau conçus spécifiquement pour ce domaine. Ce travail attaque une limite concrète du déploiement robotique : un système ne doit pas nécessiter de retuning manuel dès qu'il change d'environnement. L'apprentissage par renforcement de bout en bout peut généraliser, mais se révèle fragile face aux décalages de distribution, aux récompenses mal spécifiées et aux interactions stochastiques. MPPI seul offre un raffinement temps réel efficace sans gradients, mais sa performance dépend d'un prior d'échantillonnage bien construit, ce qui ne passe pas à l'échelle multi-scénarios. HOLO-MPPI résout cette tension : les expériences montrent qu'il surpasse les baselines MPPI pur et RL de bout en bout sur l'ensemble des scénarios de conduite testés, en maintenant des contraintes de contrôle temps réel. MPPI est une méthode de contrôle optimal stochastique établie depuis les travaux de Williams et al. à Georgia Tech (2016-2018), répandue en robotique mobile et conduite autonome. L'hybridation avec des politiques apprises s'inscrit dans une tendance concurrente des approches VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui visent une généralisation entièrement apprise. HOLO-MPPI choisit une voie intermédiaire, structurellement plus vérifiable et potentiellement plus attractive pour des intégrateurs industriels soucieux d'explicabilité. Le papier étant un preprint arXiv non encore relu par les pairs, les performances annoncées restent à confirmer sur des benchmarks standardisés ou en conditions réelles.

RecherchePaper
1 source
VANDERER : exploration sans carte par politique de diffusion guidée par la curiosité visuelle et l'anticipation
276arXiv cs.RO 

VANDERER : exploration sans carte par politique de diffusion guidée par la curiosité visuelle et l'anticipation

Des chercheurs ont publié sur arXiv (arXiv:2606.14879, juin 2026) un framework d'exploration baptisé VANDERER, conçu pour permettre à des agents mobiles de naviguer dans des environnements inconnus sans construire de carte d'occupation traditionnelle. Le système repose sur un module de curiosité visuelle (Visual Curiosity Module, VCM) qui pilote une politique de diffusion pré-entraînée en s'appuyant exclusivement sur des images monoculaires, sans LiDAR ni caméra de profondeur. Concrètement, le VCM intègre un modèle du monde de navigation qui prédit les conséquences des actions candidates, leur attribue un coût de curiosité, puis oriente le processus de diffusion vers les actions qui maximisent la superficie explorée. Évalué sur des environnements simulés variés, VANDERER explore en moyenne 13,4 % de superficie supplémentaire par rapport à NoMaD, une baseline reconnue dans le domaine de la navigation sans carte. L'intérêt du travail tient à la contrainte matérielle assumée : une seule caméra monoculaire, omniprésente sur les plateformes robotiques à bas coût, là où LiDAR et caméras stéréo restent onéreux ou volumineux. Pour les intégrateurs et les équipes de robotique mobile, VANDERER ouvre la voie à une exploration autonome efficace sur des robots à budget capteur limité, drones, robots de surveillance périmétrique ou AGV en extérieur, sans reconstruction 3D préalable de l'environnement. Les résultats établissent aussi une corrélation directe entre curiosité visuelle (texture, nouveauté apparente de l'image) et curiosité géométrique (zones non cartographiées), ce qui valide l'hypothèse que le signal caméra seul peut servir de proxy fiable à la couverture spatiale réelle dans des contextes extérieurs. C'est un résultat non trivial qui renforce la crédibilité des politiques de diffusion comme couche de planification active, au-delà du simple suivi de waypoints. VANDERER s'inscrit dans un courant de recherche sur la navigation sans carte qui a gagné en traction avec des travaux comme NoMaD et les politiques de navigation de type VLA (Vision-Language-Action). L'approche diffusion policy, popularisée dans la manipulation robotique et reprise dans des projets comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, est ici détournée vers l'exploration spatiale pure. Le papier reste au stade de preprint arXiv et toutes les évaluations sont conduites en simulation : le gap sim-to-real n'est pas adressé, ce qui constitue une limite explicite avant tout déploiement terrain. Les étapes suivantes naturelles seraient des validations sur robots réels en extérieur et l'extension à des scénarios multi-bâtiments ou en environnements intérieurs encombrés.

RechercheOpinion
1 source
Matière robotique enchevêtrée en mouvement cohésif
277Robohub 

Matière robotique enchevêtrée en mouvement cohésif

Des ingénieurs de l'université Cornell ont publié le 20 mai dans Science Robotics les résultats d'un collectif robotique décentralisé baptisé Cross-Link Collective. Le système regroupe des dizaines de modules identiques mesurant 200 mm de long sur 20 mm de large, chacun équipé d'un unique moteur qui le fait osciller entre deux formes, "I" et "U". Ces oscillations génèrent des forces contre le sol pour avancer, tandis que des languettes de Velcro à faible adhérence aux extrémités permettent aux modules de s'accrocher et de se désolidariser spontanément. Pris isolément, les robots progressent lentement et se bloquent fréquemment sur les surfaces inclinées selon leur orientation. Mais enchevêtrés en chaînes, ils s'auto-organisent en configurations mouvantes : en terrain incliné, les chaînes franchissent des pentes où les modules individuels calent ; dans des champs d'obstacles, le collectif se comporte comme un fluide, formant et rompant ses connexions pour éviter les blocages. Lorsqu'un module perd contact avec le groupe, il émet un signal sonore audible qui pousse les voisins à ralentir le temps qu'il se raccroche. La recherche est menée par Kirstin Petersen, professeure associée en génie électrique et informatique à Cornell et Aref and Manon Lahham Faculty Fellow, et Danna Ma, chercheuse principale, avec des co-auteurs du Georgia Institute of Technology qui ont conçu le module original. Ce qui singularise le Cross-Link Collective par rapport aux essaims robotiques classiques, c'est l'absence totale de calcul centralisé ou de communication numérique entre modules. Les auteurs parlent d'"intelligence mécanique" : la coordination est encodée dans la géométrie physique des robots et leurs interactions de contact, non dans du logiciel. La tolérance aux pannes est structurelle : si un module défaille (batterie déchargée, panne moteur), le collectif s'adapte sans reconfiguration explicite, ce que les auteurs vérifient expérimentalement. Ce paradigme remet en question l'hypothèse selon laquelle des comportements collectifs robustes requièrent une couche de communication sophistiquée, et ouvre une piste concrète pour des systèmes déployables en environnements dégradés ou sans connectivité réseau. Le système s'inspire des gels actifs, matériaux dont les liaisons moléculaires se forment et se dissolvent en continu tout en maintenant une cohésion globale. Ce parallèle avec la soft matter reste pour l'instant conceptuel : les chercheurs positionnent le Cross-Link Collective comme un outil d'étude des comportements émergents, pas comme un produit industrialisable à court terme. Dans le champ de la robotique en essaim décentralisée, d'autres laboratoires travaillent sur des approches similaires, notamment Harvard avec les Kilobots et l'IRIDIA à Bruxelles, mais peu ont éliminé aussi radicalement toute communication numérique explicite entre agents. Les prochaines étapes portent sur l'analyse statistique de l'influence de la géométrie des modules sur leurs propriétés d'enchevêtrement, et sur le passage à des effectifs plus importants pour tester la mise à l'échelle.

RecherchePaper
1 source
Jumeau numérique pour la classification textile et la détection d'objets étrangers dans les systèmes de tri automatisé
278arXiv cs.RO 

Jumeau numérique pour la classification textile et la détection d'objets étrangers dans les systèmes de tri automatisé

Une équipe de chercheurs a présenté un système robotique de tri textile piloté par un jumeau numérique, conçu pour l'automatisation du recyclage de vêtements. La cellule à double bras intègre une perception RGBD, un retour tactile capacitif et une planification de trajectoires anticollision via MoveIt. Le pipeline autonome saisit des vêtements depuis un panier non trié, les transfère vers une zone d'inspection et les classifie via des modèles de vision-langage (VLM, Visual Language Models). Le benchmark porte sur neuf VLM issus de cinq familles de modèles, évalués sur 223 scénarios couvrant six catégories : chemises, chaussettes, pantalons, sous-vêtements, objets étrangers et scènes vides. La famille Qwen atteint la précision globale la plus élevée avec 87,9 %, assortie de solides performances sur la détection d'objets étrangers. Gemma3 offre un compromis vitesse/précision adapté au déploiement sur matériel embarqué (edge). Le travail est disponible sur arXiv sous la référence 2603.05230v2. Ce benchmark en conditions industrielles réelles, sur des objets déformables, constitue une validation plus rigoureuse que les démonstrations sur images synthétiques habituellement produites dans ce domaine. L'évaluation intègre le comportement aux hallucinations et les performances computationnelles sous contraintes matérielles, deux critères souvent absents des publications académiques sur la robotique manipulatrice. Pour les intégrateurs industriels, cela confirme que le tri automatisé de textiles par VLM est réalisable sans infrastructure GPU haute performance, et que le choix du modèle doit s'adapter aux contraintes du site de déploiement. L'intégration de nuages de points 3D segmentés dans le jumeau numérique réduit par ailleurs le fossé sim-to-real pour la planification de prises sur objets déformables. Ce travail s'inscrit dans un contexte de pression réglementaire croissante : l'UE impose depuis janvier 2025 la collecte séparée obligatoire des textiles usagés dans les États membres, accélérant la demande d'automatisation dans les centres de tri. Dans le paysage concurrentiel, Picvisa (Espagne) et Recycleye (Royaume-Uni) opèrent déjà sur le tri optique de déchets par vision, mais sans raisonnement sémantique par VLM. Les prochaines étapes naturelles pour ce système seraient la validation sur des lignes industrielles à plus grand débit et l'extension à d'autres catégories de matières, notamment les textiles synthétiques et les fibres techniques.

UELa directive UE sur la collecte séparée des textiles (en vigueur depuis janvier 2025) crée une demande directe pour ce type d'automatisation dans les centres de tri européens, et les acteurs ibérique (Picvisa) et britannique (Recycleye) déjà présents pourraient être concurrencés ou complétés par ce système.

RecherchePaper
1 source
MPC d'impédance avec estimation des perturbations pour le contrôle de main dextérique
279arXiv cs.RO 

MPC d'impédance avec estimation des perturbations pour le contrôle de main dextérique

Des chercheurs ont soumis en juin 2026 sur arXiv (réf. 2606.14606) un cadre de contrôle baptisé Impedance MPC pour doigts robotiques dextres, actuateur-agnostique, couvrant transmissions hydrauliques, câblées, pneumatiques, à corde torsadée et série-élastiques. Un préfiltrage algébrique réduit la dynamique tendineuse à un double intégrateur à coefficients constants, dont l'inverse du coût QP est précalculé hors ligne ; un horizon glissant de 10 pas tourne à 500 Hz avec contraintes dures sur les forces de contact (ISO/TS 15066), les limites d'actionnement et le jerk. Un filtre de Kalman augmenté, alimenté uniquement par encodeurs, annule l'erreur statique sous charge constante. Sur un prototype de doigt à actionnement hydraulique, le contrôleur atteint 0,5 mrad RMS, 0,1 mrad en régime permanent et 6,6 mrad en pic sous 1,5 Nm de couple de contact, soit 183×, 1500× et 23× meilleur que l'impédance classique à gain fixe ; la raideur réalisée s'étend de 18 à 323 Nm/rad selon la fréquence de mise à jour. En simulation MuJoCo, le cadre s'étend à une main LEAP à 16 DOF, récupérant en 0,7 s après une perturbation de saisie de 2,5 N. L'actuateur-agnosticisme est le principal atout pour les intégrateurs : une seule loi de commande couvre des architectures mécaniquement très hétérogènes sans retuning, réduisant le coût d'intégration sur des plateformes multi-actionneurs. La conformité native à l'ISO/TS 15066 dans la formulation du problème simplifie les validations pour le déploiement cobotique en environnement humain, là où les forces de contact sont réglementées. Il faut cependant relativiser les gains annoncés, dont le plus élevé atteint 1500× : la référence est un contrôleur à gain fixe, choix délibérément défavorable, et des benchmarks contre du MPC adaptatif ou du contrôle par apprentissage sont absents de l'article. La main dextre reste le maillon faible de la robotique humanoïde : Shadow Robotics, Inspire Robots et d'autres ont progressé sur le plan mécanique, mais le contrôle fin sous contact demeure un problème ouvert. Les mains LEAP, issues de Carnegie Mellon, constituent la plateforme open-source de référence pour la recherche en manipulation. Les approches concurrentes privilégient l'apprentissage par renforcement et les architectures VLA (vision-langage-action), qui court-circuitent le contrôle classique au prix des garanties formelles ; cet article occupe l'angle inverse, avec des propriétés de stabilité et de faisabilité récursive héritées du cadre pHRI (interaction physique humain-robot). Aucun partenaire industriel ni calendrier de transfert n'est mentionné ; la contribution reste académique, mais elle outille directement les équipes intégrant des mains dextres sur des humanoïdes commerciaux comme ceux de Figure AI ou Unitree.

UELa conformité native à l'ISO/TS 15066 inscrite dans la formulation du contrôleur simplifie les validations réglementaires pour le déploiement cobotique en environnements humains en Europe, où les forces de contact sont normativement encadrées.

RecherchePaper
1 source
Architecture de contrôle unifiée pour la manipulation macro-micro par centre de compliance déporté actif en fabrication
280arXiv cs.RO 

Architecture de contrôle unifiée pour la manipulation macro-micro par centre de compliance déporté actif en fabrication

Des chercheurs ont proposé une architecture de commande unifiée pour manipulateurs macro-micro, publiée sur arXiv (2602.01948v2), ciblant les applications d'assemblage industriel de précision. Ce type de système associe un bras macro (robot industriel à large espace de travail) à un micro-manipulateur léger à haute bande passante. Dans l'approche classique, le macro assure le positionnement pendant que le micro gère l'interaction avec l'environnement, ce qui plafonne la bande passante de contrôle en force. L'architecture présentée intègre le bras macro dans la boucle d'interaction active, obtenant un gain de bande passante d'un facteur 2,1 par rapport à l'approche leader-suiveur état de l'art, et d'un facteur 12,5 face au contrôle en force robot traditionnel. Les auteurs ajoutent des modèles de substitution (surrogate models) pour simplifier la synthèse du contrôleur et son adaptation aux changements matériels. La validation s'appuie sur trois scénarios expérimentaux : collision avec un objet, suivi de trajectoire en force, et tâches d'assemblage industriel. Ces gains de bande passante répondent à un verrou concret en intégration robotique : une réactivité faible impose des vitesses d'approche réduites et des tolérances relâchées, pénalisant les cadences de production. Multiplier par douze la réactivité du contrôle en force ouvre la voie à des assemblages à ajustement serré comparables aux systèmes passifs à Remote Center of Compliance (RCC) mécanique, mais avec la flexibilité d'un système actif reprogrammable. Les surrogate models adressent un frein souvent négligé : le coût de reconfiguration lors d'un changement d'outil ou de charge utile. Les résultats restent cependant à l'échelle laboratoire et devront être confirmés sur des cycles de production réels, avec variabilité des pièces et dégradation des actionneurs dans le temps. La manipulation macro-micro est étudiée depuis les années 1990, d'abord pour la microchirurgie avant de migrer vers la fabrication industrielle. L'approche leader-suiveur, prise comme référence dans l'étude, reste la baseline académique dominante mais est peu déployée en production. Les acteurs industriels actifs sur la compliance active incluent Bota Systems pour les capteurs force-couple d'extrémité de bras, ainsi que KUKA et Franka Robotics (racheté par Agile Robots) sur l'impédance control. Côté recherche académique, le DLR et l'ETH Zurich développent des architectures proches. La suite logique serait un pilote industriel avec des métriques de cycle time et de taux de rejet pour valider le potentiel de commercialisation.

UEDLR et ETH Zurich sont cités comme acteurs académiques proches de ces travaux, et KUKA ainsi que Franka Robotics, deux acteurs européens leaders sur l'impédance control, sont les bénéficiaires industriels naturels si ces gains de bande passante (×12,5 vs force control classique) se confirment en conditions de production réelles.

RecherchePaper
1 source
Les meilleurs encodeurs ne se transfèrent pas fiablement selon l'échelle du backbone VLA : diagnostic par greffage gelé
281arXiv cs.RO 

Les meilleurs encodeurs ne se transfèrent pas fiablement selon l'échelle du backbone VLA : diagnostic par greffage gelé

Publiés sur arXiv en juin 2026 (arXiv:2606.14153), des chercheurs présentent un diagnostic simple aux conclusions contre-intuitives : l'encodeur visuel le plus performant sur un petit modèle VLA (Vision-Language-Action) ne l'est pas nécessairement sur un modèle plus grand. Pour le démontrer, l'équipe a développé un protocole de "greffe à backbone gelé" (frozen-backbone grafting), consistant à remplacer la tour visuelle d'un VLA publié par un encodeur candidat, tout en maintenant gelés le modèle de langage et l'expert d'action. Quatre encodeurs ont été testés sur deux backbones : SmolVLA-450M et π₀.₅-3.3B de Physical Intelligence, sur deux suites de benchmarks LIBERO, avec 40 runs de greffe principaux évalués par MSE d'action hors-ligne. Résultat : SigLIP (Google) domine sur SmolVLA pour les deux suites, tandis que sur π₀.₅, c'est DINOv2-small (Meta) qui prend la tête sur la suite spatiale, avec une quasi-égalité sensible aux seeds sur la suite objets. Sur 3 comparaisons backbone-suite sur 4, et 11 cellules sur 12 au niveau des seeds, les classements s'avèrent backbone-dépendants. Ce résultat remet en question une pratique courante dans la communauté VLA : hériter l'encodeur visuel d'un VLM upstream sans vérifier si ce choix tient à l'échelle cible. Le diagnostic révèle également que le protocole de greffe lui-même n'est pas neutre : il introduit un biais asymétrique de +45 à 56% de MSE sur la tour native de SmolVLA, mais de -50 à 52% sur π₀.₅, ce qui conditionne fortement l'interprétation des résultats. Pour les équipes qui construisent des VLAs à grande échelle, cela signifie concrètement qu'une ablation menée sur un backbone 450M ne prédit pas le classement sur un 3,3B, un surcoût de validation qui change structurellement les pipelines d'expérimentation. Les VLAs sont aujourd'hui au coeur de la robotique apprise de bout-en-bout, incarnés par des modèles phares comme π₀ et π₀.₅ de Physical Intelligence, GR00T N2 de NVIDIA ou encore OpenVLA. LIBERO, la suite utilisée ici pour la manipulation robotique en simulation, est un benchmark standard du champ. Les auteurs positionnent explicitement la greffe gelée comme un outil diagnostique pré-engagement à faible coût, à utiliser avant de figer le choix d'encodeur sur un backbone cible, et non comme une méthode de déploiement en boucle fermée. C'est une contribution méthodologique qui devrait modifier la façon dont les équipes structurent leurs campagnes d'ablation d'encodeurs dans la course aux VLAs à grande échelle.

UELes équipes européennes travaillant sur des VLAs (labs INRIA, CEA-List, startups robotique FR) peuvent intégrer le protocole de greffe gelée comme outil diagnostique à faible coût avant de figer le choix d'encodeur sur leur backbone cible.

RechercheActu
1 source
ORCA : une plateforme open source pour la recherche en dextérité
282arXiv cs.RO 

ORCA : une plateforme open source pour la recherche en dextérité

Une équipe de chercheurs présente ORCA, une pile logicielle open-source dédiée à la manipulation dextre par mains anthropomorphes, publiée sur arXiv (2606.14561) en juin 2026. La plateforme unifie en une seule interface le contrôle bas niveau, la simulation, la téleopération depuis des dispositifs grand public, et le retargeting de main, c'est-à-dire la conversion des mouvements d'une main humaine vers les actionneurs d'une main robotique. ORCA s'intègre nativement avec LeRobot, le framework de robot learning open-source de Hugging Face devenu référence dans la communauté. Les auteurs ont validé le système sur une tâche de réorientation objet en main (in-hand reorientation), en collectant des démonstrations par téleopération via un casque VR grand public, en entraînant une politique autonome avec LeRobot, puis en évaluant les résultats dans un environnement entièrement reproductible. Aucun chiffre de performance quantifié (taux de succès, temps de cycle) n'est communiqué dans l'abstract. Ce travail s'attaque à un verrou structurel du domaine : les mains dextres restent quasi-absentes des benchmarks de robot learning, non par manque de hardware accessible, mais parce que les couches logicielles, simulation, téleopération, retargeting, sont dispersées dans des dépôts non maintenus, sans connexion aux pipelines de données et d'entraînement standards. Résultat, les chercheurs travaillant sur les pinces parallèles à deux doigts (two-finger grippers) bénéficient d'un écosystème mature, tandis que les équipes mains anthropomorphes repartent de zéro à chaque projet. ORCA propose une fondation partagée pour homogénéiser cet effort, permettant de réutiliser les mêmes datasets, les mêmes recettes d'entraînement et les mêmes protocoles d'évaluation entre plateformes dextres et non-dextres. C'est un pari d'infrastructure communautaire, pas une avancée algorithmique. Le contexte immédiat est la montée en puissance de LeRobot comme socle commun du robot learning open-source, accélérant la demande pour des intégrations matérielles homogènes. La recherche en manipulation dextre reste dominée par quelques labos bien équipés (Stanford, CMU, Berkeley), souvent sur des mains propriétaires comme la Dexterous Hand d'Allegro ou la Shadow Hand. Côté européen, Pollen Robotics (Bordeaux) et Enchanted Tools intègrent des mains polydigitales dans leurs plateformes, et pourraient bénéficier directement d'une couche d'abstraction standardisée comme ORCA. La prochaine étape naturelle serait l'adoption par la communauté LeRobot et l'extension à des tâches multi-objets ou de manipulation bimanuelle, domaines où les grippers classiques atteignent leurs limites mécaniques.

UEPollen Robotics (Bordeaux) et Enchanted Tools pourraient adopter ORCA directement pour accélérer leurs développements sur mains polydigitales, en bénéficiant d'une couche d'abstraction standardisée native avec LeRobot, le framework open-source de HuggingFace (entreprise française).

RecherchePaper
1 source
PhysVLA : vers un modèle VLA physiquement ancré pour la manipulation robotique
283arXiv cs.RO 

PhysVLA : vers un modèle VLA physiquement ancré pour la manipulation robotique

Des chercheurs ont publié sur arXiv (arXiv:2606.13886, juin 2026) PhysVLA, un module d'inférence plug-and-play conçu pour corriger en temps réel les actions générées par n'importe quel modèle VLA (Vision-Language-Action) existant, sans rétro-entraînement ni accès aux poids. Le système intercepte les commandes produites par le backbone VLA et applique deux couches de correction successives : une machine à états finis sensible à la phase de la tâche (approche, saisie, transport, dépôt), puis un filtre sélectif basé sur les équations d'Euler-Lagrange qui ne s'active que lorsqu'un oracle de dynamique détecte une incohérence cinodynamique. Le surcoût de calcul est inférieur à 1 ms par pas de contrôle. Évalué sur quatre architectures distinctes (OpenVLA, OpenVLA-OFT, Force-VLA, Generalist-VLA) sur le benchmark LIBERO-Spatial avec un bras Franka Panda 7-DOF, PhysVLA améliore le taux de succès absolu jusqu'à 17 points, la stabilité jusqu'à 19 points, et l'efficacité de trajectoire jusqu'à 15 %, sans régression sur aucune tâche. Sur un sweep cross-simulateur (Robosuite Lift), la robustesse au jerk de trajectoire progresse d'un facteur 10. La validation sur un bras physique Agilex Piper (tâche pick-and-place réelle) confirme le transfert sim-to-real sans rétro-entraînement, avec une amélioration du taux de succès allant jusqu'à 50 %. L'intérêt industriel de cette approche tient à son caractère composable et backbone-agnostique. Les VLA actuels apprennent à imiter des démonstrations comportementales sans contraindre explicitement la physique des corps rigides ni les contacts, ce que les chercheurs nomment un "physics gap". Les correcteurs temporels classiques (temporal smoothing) masquent le problème sans le résoudre, et introduisent leurs propres échecs. PhysVLA propose une solution d'intégration légère pour les équipes qui déploient des VLA existants en production : pas de réentraînement, pas d'accès aux poids, un wrapper autour du modèle gelé. Pour un intégrateur ou un OEM, cela signifie potentiellement améliorer des systèmes déjà en ligne sans toucher aux pipelines de formation, ce qui réduit le risque et le coût de mise à niveau. PhysVLA s'inscrit dans la montée en puissance des approches de contrôle physique fondé pour les VLA généralistes, une problématique que des laboratoires comme Physical Intelligence (avec π0), Stanford (OpenVLA) ou Google DeepMind travaillent activement. Le papier positionne explicitement son framework comme complémentaire à ces backbones plutôt que concurrent. Il reste à ce stade un prototype de recherche validé en laboratoire sur deux plateformes matérielles (Franka Panda et Agilex Piper) ; aucun déploiement industriel ni partenariat commercial n'est annoncé. Les prochaines étapes naturelles seraient une validation sur des benchmarks plus larges (RoboMimic, DROID) et sur des robots à plus haute cinématique, notamment des humanoïdes où la gestion des contacts et de la dynamique des corps rigides est critique.

UELes équipes R&D et intégrateurs européens déployant des VLA en production peuvent directement tester ce wrapper plug-and-play sans rétro-entraînement, mais aucun acteur ou déploiement européen n'est impliqué dans ce travail de recherche.

RechercheOpinion
1 source
Elastic Queries : apprentissage par renforcement pour l'exécution auto-consciente des politiques dans les modèles VLA
284arXiv cs.RO 

Elastic Queries : apprentissage par renforcement pour l'exécution auto-consciente des politiques dans les modèles VLA

Des chercheurs ont publié sur arXiv (réf. 2606.14375) une nouvelle méthode appelée Elastic Queries Reinforcement Learning (EQRL), conçue pour rendre l'exécution des modèles VLA (Vision-Language-Action) adaptative plutôt que rigide. Dans les systèmes actuels, ces modèles qui pilotent la manipulation robotique s'exécutent selon des plannings d'inférence fixes : même fréquence de requête, même budget de débruitage, même longueur de chunk d'actions, quelle que soit la complexité de l'état courant. EQRL introduit un adaptateur léger qui sélectionne dynamiquement, pour chaque requête, trois paramètres : l'entrée latente, le budget de débruitage, et la longueur du chunk à exécuter en boucle ouverte. La méthode entraîne un critique sur l'espace joint et dérive un signal de difficulté d'état via le désaccord entre un ensemble de critiques (critic ensemble disagreement), guidant le calcul vers les états difficiles sans modifier les poids du modèle VLA sous-jacent. Sur bancs de simulation et en manipulation sur robot réel, les auteurs rapportent une réduction du coût d'inférence amorti avec un taux de succès préservé ou amélioré. L'enjeu concret concerne directement le coût de déploiement des politiques fondées sur des modèles de diffusion, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. Ces architectures souffrent d'un goulot d'étranglement identique : le nombre d'évaluations de fonction (NFE) du processus de débruitage est fixe, qu'on soit sur une prise de contact incertaine ou un simple transit en espace libre. EQRL démontre qu'il est possible d'allouer dynamiquement ce budget de calcul selon la difficulté estimée, sans retraining du modèle de base. Pour un intégrateur ou un COO, la promesse est directe : même capacité de manipulation, moins de GPU sur les états faciles, meilleure scalabilité sur flotte. Le travail s'inscrit dans une course à l'efficacité d'inférence pour les VLA, accélérée par la publication de Pi-0 fin 2024 et les modèles de diffusion successifs (Octo, OpenVLA, GR00T N2, Helix de Figure AI). Des approches parallèles comme FAST ou DiT-Policy attaquent le même problème sous d'autres angles : compression de trajectoire, distillation, ou batch adaptatif. EQRL se distingue en opérant au-dessus du modèle sans le modifier et en intégrant un signal de difficulté appris par RL. Les auteurs annoncent des résultats positifs en simulation et sur robot réel, mais les métriques précises et les conditions expérimentales restent à examiner dans le corps du papier : la validité des gains annoncés dépendra de la représentativité des benchmarks choisis.

UELes équipes R&D européennes développant ou déployant des politiques de manipulation sur modèles de diffusion (VLA) pourraient appliquer EQRL pour réduire leurs coûts GPU d'inférence sans retraining, mais aucun acteur français ou européen n'est directement impliqué.

RechercheOpinion
1 source
X-Loco : vers un contrôle généraliste de la locomotion humanoïde par distillation synergique de politiques
285arXiv cs.RO 

X-Loco : vers un contrôle généraliste de la locomotion humanoïde par distillation synergique de politiques

Publié sur arXiv (2603.03733) en 2025, X-Loco est un framework d'entraînement d'une politique de locomotion généraliste basée sur la vision pour robots humanoïdes. L'approche repose sur une distillation synergétique : plusieurs politiques expertes sont entraînées séparément pour des compétences distinctes - locomotion bipède stable, récupération après chute, coordination corps entier, franchissement de terrains variés - puis une politique unique guidée par entrée visuelle est distillée à partir de ces experts via un mécanisme de sélection adaptative au cas par cas. X-Loco opère uniquement sur des commandes de vitesse, sans recours à des mouvements de référence issus de captures de mouvement. Les auteurs revendiquent une première dans l'intégration simultanée de toutes ces compétences dans une seule politique vision - affirmation à prendre avec les précautions d'usage pour un preprint non encore évalué par les pairs. Ce travail s'attaque à un verrou technique central : entraîner une politique unique qui maîtrise des comportements aux dynamiques radicalement différentes et aux objectifs de contrôle parfois contradictoires. Une telle politique simplifie le déploiement opérationnel en éliminant les modules de commutation entre comportements. L'absence de dépendance aux données de mocap rend également le pipeline d'entraînement plus scalable, puisqu'il ne requiert pas de bibliothèques de mouvements spécifiques à chaque compétence cible. Les études d'ablation incluses renforcent la crédibilité des choix architecturaux, mais les résultats restent cantonnés à la simulation et au laboratoire, sans validation sur hardware réel à grande échelle. X-Loco s'inscrit dans une dynamique de recherche intense sur la locomotion humanoïde, portée par des équipes comme Berkeley Humanoid, CMU et les labos gravitant autour d'Unitree. La distillation enseignant-étudiant est un paradigme établi en apprentissage par renforcement, mais son application à un spectre aussi large de compétences reste un défi ouvert. Côté commercialisation, Tesla (Optimus Gen 2), Figure AI, Boston Dynamics (Atlas) et 1X Technologies travaillent sur des problèmes similaires avec des ressources bien supérieures. La suite logique pour X-Loco serait une validation sim-to-real convaincante sur hardware physique, étape non encore franchie selon le papier.

RecherchePaper
1 source
Capteurs tactiles dynamiques et évolutifs grâce à des guides d'ondes acoustiques passifs et flexibles
286arXiv cs.RO 

Capteurs tactiles dynamiques et évolutifs grâce à des guides d'ondes acoustiques passifs et flexibles

Des chercheurs ont publié en juin 2026 (arXiv:2606.13746) un système de peau tactile dynamique basé sur des guides d'ondes acoustiques passifs et flexibles. L'architecture repose sur des résonateurs de Helmholtz à membranes élastiques interconnectés par des microtubes renforcés par ressorts, formant un réseau fermé dont la transmission acoustique reste stable sous flexion macroscopique, sans électronique distribuée dans la structure. Quatre microphones suffisent à couvrir 64 noeuds de détection avec une résolution spatiale de 4 mm et une précision de localisation supérieure à 99 %. L'inférence, fondée sur une transformée en ondelettes continue rapide (Fast CWT) couplée à un réseau de neurones léger, s'exécute en 5,5 ms. Les prototypes démontrés (réseau d'extrémité de doigt, gant tactile, peaux de grande surface) détectent des stimuli allant du contact d'un seul cheveu à un impact de particule de 5 mg, ainsi que des ondes de pouls artériel et des effleurements de plume, sur des signaux inférieurs à 100 Hz. La contribution clé n'est pas la sensibilité brute mais le découplage entre performance et flexibilité structurelle : contrairement aux capteurs piézorésistifs ou capacitifs qui se dégradent sur des substrats courbés, la transmission acoustique passive reste invariante. Ramener à quatre microphones la couverture de 64 points de mesure réduit câblage, coût et modes de défaillance, trois leviers critiques pour une mise en série industrielle. La précision annoncée de 99 % reste à confirmer hors conditions de laboratoire contrôlé et sur des cycles de manipulation réels. Ces travaux s'inscrivent dans une compétition dense autour de la peau tactile robotique, face aux capteurs optiques (famille GelSight du MIT), aux matrices piézorésistives (BeBop Sensors, SynTouch) et aux peaux capacitives développées en Europe et en Asie. Aucune approche n'a encore atteint la trifecta scalabilité-robustesse-coût sur un corps humanoïde complet. Ce paradigme passif pourrait intéresser des plateformes comme Agility Robotics, Figure AI ou Apptronik, qui cherchent à intégrer du retour tactile sans multiplier la complexité d'assemblage. La validation mécanique sur cycles répétés et la soumission à une revue à comité de lecture constituent les prochaines étapes critiques.

RecherchePaper
1 source
Kine2Go : jeu de données cinématiques pour le robot Unitree Go2, avec allures et mouvements variés
287arXiv cs.RO 

Kine2Go : jeu de données cinématiques pour le robot Unitree Go2, avec allures et mouvements variés

Une équipe de chercheurs a publié en juin 2026 Kine2Go, un jeu de données cinématiques open-source destiné au robot quadrupède Unitree Go2. Le dataset contient 800 trajectoires de marche couvrant une large variété de gaits, issues de 40 politiques de contrôle distinctes. Le pipeline développé accepte des données de locomotion provenant de morphologies quadrupèdes variées et les retraduit dans un format compatible Go2. Ces politiques sont entraînées par renforcement (RL) pour reproduire fidèlement les trajectoires cibles, puis les données collectées en simulation incluent des perturbations, ce qui produit des séquences cinématiques robustes accompagnées des commandes moteur correspondantes, niveau actionneur. Le problème que Kine2Go cherche à résoudre est concret : les approches modernes d'apprentissage sur robots, qu'il s'agisse d'imitation learning, de behavioral cloning ou de RL, nécessitent des données de démonstration incluant l'état cinématique complet du robot et les actions appliquées aux moteurs. Construire le pipeline d'acquisition de ces données est coûteux en temps et en ingénierie, ce qui constitue un frein réel pour les équipes de recherche à ressources limitées. En prépackageant 800 trajectoires prêtes à l'emploi avec leurs labels moteur, le dataset réduit significativement ce coût d'entrée pour les travaux en navigation, contrôle de locomotion et transfert sim-to-real. La présence de perturbations dans les données est un choix pertinent : elle expose les modèles apprenants à de la variabilité, ce qui améliore la robustesse des politiques résultantes en condition réelle. Le Unitree Go2 s'est imposé ces deux dernières années comme plateforme de référence accessible dans la recherche en locomotion quadrupède, notamment face au Boston Dynamics Spot, beaucoup plus onéreux. Sa démocratisation tient au rapport coût-performance : moins de 2 000 dollars en version grand public, contre plusieurs dizaines de milliers pour ses concurrents institutionnels. Ce contexte de coût hardware décroissant est précisément la motivation affichée par les auteurs. La prochaine étape logique serait l'extension du pipeline à d'autres plateformes quadrupèdes populaires comme l'ANYmal de ANYbotics ou le Spot de Boston Dynamics, voire aux robots bipèdes, que le pipeline générique semble en principe permettre. Le preprint est disponible sur arXiv (2606.14433).

RecherchePaper
1 source
GAIT : estimation proprioceptive de l'état d'un robot à pattes par attention sur tokens inertiels
288arXiv cs.RO 

GAIT : estimation proprioceptive de l'état d'un robot à pattes par attention sur tokens inertiels

Une équipe de chercheurs a publié sur arXiv (2606.14160) une nouvelle méthode d'estimation d'état proprioceptive pour robots à pattes, baptisée GAIT. L'approche repose sur une tokenisation inertielle-jambe (Inertial-Leg, IL) couplée à un réseau d'attention : plutôt que de concaténer l'ensemble des données capteurs en un seul vecteur plat, l'architecture représente les mesures inertielles et les mesures par jambe comme des tokens distincts, puis utilise un mécanisme d'attention pour pondérer dynamiquement chaque source selon les conditions de contact courantes. La méthode a été validée sur un robot quadrupède Unitree Go1, sur des terrains encombrés de débris absents de la simulation d'entraînement, et sur des allures (gait patterns) non présentées lors de l'apprentissage. L'enjeu de GAIT est de résoudre un problème central des estimateurs à pattes : la fiabilité des mesures de cinématique directe dépend du contact effectif du pied avec le sol. Les estimateurs classiques "contact-aided" contournent ce problème via un module de détection de contact explicite et l'hypothèse d'un appui stationnaire, ce qui les rend fragiles sur terrains irréguliers ou lors de transitions d'allure. GAIT apprend ce comportement de repondération directement depuis les données, sans estimateur de contact dédié, éliminant une source d'erreur en cascade. Les résultats montrent une supériorité sur les estimateurs d'apprentissage existants pour des allures non vues, ainsi qu'une amélioration par rapport aux méthodes modèles contact-aided, confirmant que les architectures à attention peuvent réduire le gap sim-to-real sur l'estimation proprioceptive bas-niveau. L'estimation d'état proprioceptive reste un défi persistant en robotique à pattes : les filtres de Kalman étendu (EKF) et variantes invariantes dominent en production chez Boston Dynamics et Unitree, mais peinent sur terrains non structurés. Les approches d'apprentissage antérieures traitaient généralement les capteurs comme un vecteur plat homogène, sans différenciation structurelle entre inertielles et cinématiques. GAIT s'inscrit dans la tendance 2024-2026 d'appliquer des mécanismes d'attention aux données robotiques bas-niveau, une direction convergente avec les architectures VLA (Vision-Language-Action) pour la commande motrice. Le code n'est pas encore publié ; la prochaine étape naturelle serait une validation sur plateformes bipèdes telles que l'Unitree H1 ou le Boston Dynamics Atlas, où la phase de vol rend l'estimation d'état encore plus critique.

RecherchePaper
1 source
Robustesse sans faux plis : simulation parallèle et MPC robuste pour la manipulation certifiée d'objets déformables
289arXiv cs.RO 

Robustesse sans faux plis : simulation parallèle et MPC robuste pour la manipulation certifiée d'objets déformables

Fin juin 2025, une équipe de recherche a déposé sur arXiv (2506.14188) CORD-SLS, une méthode de contrôle temps réel pour la manipulation certifiée d'objets déformables, principalement des cordes et des tissus. Le coeur du système est un simulateur différentiable GPU-parallèle avec lissage de contact, permettant une planification par gradient à travers des contacts intermittents. Un algorithme de commande prédictive robuste (MPC) à retour de sortie, lui aussi GPU-parallèle, exploite ce simulateur pour générer des trajectoires en quelques millisecondes. Pour gérer les incertitudes de modèle et de perception, le système intègre la prédiction conforme (conformal prediction), qui calibre les erreurs de rétroaction visuelle et produit des "tubes atteignables" offrant des garanties probabilistes de sécurité. Les expériences couvrent des tâches à contact riche: évitement d'obstacles, routage de corde, pliage et lissage de tissu, évaluées en simulation et sur matériel réel, avec des résultats supérieurs aux baselines sur les critères de sécurité, de vitesse et de taux de succès. La manipulation d'objets déformables reste l'un des angles morts de la robotique industrielle: cordes et tissus présentent des espaces d'états quasi-infinis et des dynamiques de contact difficiles à modéliser. CORD-SLS attaque deux verrous simultanément: la vitesse de planification compatible avec du contrôle en boucle fermée temps réel, et des garanties formelles de sécurité absentes de la quasi-totalité des approches par apprentissage (RL, VLA). Le fait que le même simulateur accélère également l'entraînement de politiques neuronales model-based est notable: cela ouvre la voie à des pipelines hybrides combinant planification robuste et politiques apprises. Pour les intégrateurs ciblant la couture automatisée, la logistique textile ou la robotique chirurgicale, c'est une démonstration académique sérieuse, pas encore un produit déployé. La manipulation déformable est étudiée depuis les années 1990, mais les approches classiques échouaient systématiquement à l'échelle réelle faute de simulateurs rapides et fiables. Les méthodes par apprentissage de type diffusion policies et VLAs gagnent du terrain mais peinent à fournir des garanties certifiables, ce qui freine leur adoption dans des contextes régulés. CORD-SLS positionne le couplage MPC robuste et prédiction conforme comme une alternative formellement vérifiable. Les concurrents directs incluent les travaux de simulation différentiable de DiffTaichi, les approches MPC déformable développées à MIT et CMU, et les politiques end-to-end de type Pi-0 de Physical Intelligence. Le papier reste un preprint sans publication en conférence confirmée à ce stade; les suites dépendront de validations sur des tâches industrielles réelles et d'une éventuelle mise à disposition publique du code.

RecherchePaper
1 source
EgoGuide : guidage égocentrique pour collecter des démonstrations sans robot et apprendre efficacement
290arXiv cs.RO 

EgoGuide : guidage égocentrique pour collecter des démonstrations sans robot et apprendre efficacement

Une équipe de chercheurs a publié en juin 2026 sur arXiv (2606.14665) EgoGuide, une interface de collecte de démonstrations robotiques sans robot physique. Le système enregistre simultanément deux flux vidéo : une caméra au poignet de l'opérateur (wrist view) et une caméra égocentrique portée sur la tête (egocentric view). Un module de guidage visuel-géométrique en ligne évalue la qualité de chaque épisode en temps réel et signale les données redondantes ou peu informatives avant leur accumulation dans le jeu d'entraînement. Les auteurs introduisent également une "Gated Egocentric Residual Policy", une architecture qui mobilise la vue égocentrique pour corriger les ambiguïtés de la vue poignet, tout en préservant la stabilité du contrôle moteur local. Les expériences en conditions réelles confirment une réduction du nombre d'épisodes de démonstration nécessaires et une meilleure robustesse face aux occultations visuelles. L'apport principal est de s'attaquer à un goulot d'étranglement bien identifié dans le domaine : le coût humain de la collecte de données de qualité. Les pipelines de type UMI (Universal Manipulation Interface), qui permettent à un opérateur de collecter des démonstrations manuellement sans robot dédié, produisent souvent des épisodes redondants et manquent de contexte global de scène. Le guidage en ligne réduit ce gaspillage dès la source. La politique résiduelle répond à un problème concret des systèmes d'imitation : la vue poignet seule est ambiguë lors d'occultations ou de passages critiques dans la trajectoire. Donner au modèle un accès conditionnel (gated) à la vue globale lève ces ambiguïtés sans déstabiliser le contrôle fin. Pour un intégrateur, cela signifie potentiellement moins d'heures de collecte humaine pour atteindre un niveau de performance équivalent. EgoGuide s'inscrit dans la lignée directe de l'UMI, développé par Cheng Chi et ses collaborateurs à Stanford et Columbia, qui a popularisé la collecte de démonstrations via des dispositifs portatifs instrumentés. Le verrou adressé ici n'est pas la quantité brute de données mais leur qualité et leur diversité informationnelle. Les approches concurrentes incluent ACT (Action Chunking Transformer), Diffusion Policy et les plateformes de téléopération à faible coût comme ALOHA. Ce travail reste une publication académique arXiv sans déploiement industriel annoncé, et les expériences présentées restent à l'échelle laboratoire. La combinaison guidage en ligne et politique bi-caméra présente toutefois un intérêt direct pour les équipes cherchant à réduire le coût opérationnel de la démonstration à grande échelle.

RechercheOpinion
1 source
FloVerse : navigation multimodale guidée par plan d'étage
291arXiv cs.RO 

FloVerse : navigation multimodale guidée par plan d'étage

Une équipe de chercheurs a publié FloVerse, un cadre unifié de navigation incarnée guidée par plans d'étage, accompagné d'un jeu de données à grande échelle et d'une nouvelle politique d'apprentissage. Présenté sous forme de preprint arXiv (2606.14267) en juin 2026, ce travail rassemble sous un même protocole trois variantes classiques de navigation autonome en intérieur : PointNav (atteindre des coordonnées cibles), ObjectNav (trouver une instance d'objet précis) et ImageNav (rejoindre un lieu identifié par une image de référence). Pour soutenir ces expériences, les auteurs ont constitué FloVerse-1.6K, un jeu de données de 1 600 scènes issues des environnements HM3D et Gibson 4+, couplé aux plans d'étage correspondants, comprenant 240 000 trajectoires expertes et 12 millions de frames RGBD. Ils proposent également ThreeDiff, une politique d'imitation en deux étapes : un planificateur basé sur la diffusion entraîné par masked-modality modeling (masquage aléatoire des modalités en entrée pour forcer la robustesse multimodale), et un raffineur qui ajuste les trajectoires à l'exécution à partir de données de profondeur pour éviter les collisions. L'apport principal réside dans la démonstration que les plans d'étage constituent des priors spatiaux efficaces et généralisables : les résultats montrent une amélioration des performances sur l'ensemble des trois modalités de tâches, y compris en généralisation à des scènes non vues durant l'entraînement. Pour un intégrateur déployant des robots mobiles en environnement structuré (entrepôts, hôpitaux, hôtels), ce résultat ouvre une voie pragmatique : exploiter les plans existants issus du BIM ou de simples blueprints sans nécessiter de cartographie préalable par le robot. ThreeDiff montre de surcroît que ce prior spatial peut être capturé implicitement par le modèle, sans supervision explicite sur la structure géométrique du plan. Ce travail s'inscrit dans un courant de recherche actif où plusieurs approches concurrentes telles que VLN-BERT, NavGPT ou EmbodiedGPT s'appuient sur des modèles de langage visuels ou des cartes sémantiques. La spécificité de FloVerse est d'intégrer le plan d'étage comme modalité de guidage explicite et portable, là où la majorité des travaux antérieurs se limitaient à PointNav sur des environnements restreints comme AI2-THOR ou Matterport3D. En tant que preprint non encore soumis à évaluation par les pairs, les benchmarks restent en simulation ; le gap sim-to-real n'est pas évalué, ce qui constitue la limite principale avant toute application industrielle.

RecherchePaper
1 source
Le gant haptique N2D : un gant multi-doigts pour le retour de force directionnel 2D en manipulation multi-contact
292arXiv cs.RO 

Le gant haptique N2D : un gant multi-doigts pour le retour de force directionnel 2D en manipulation multi-contact

Des chercheurs du laboratoire ARC de l'Université de Californie à San Diego (UCSD) ont présenté le N2D Haptic Glove, un gant haptique multi-doigts dont le preprint a été déposé sur arXiv (2606.14083) en juin 2026. Le dispositif exploite des transmissions à cabestan (capstan-drive) pour restituer, en temps réel, des forces de contact bidirectionnelles dans le plan sagittal de chaque doigt, couvrant à la fois la flexion et l'extension. Dans une étude contrôlée de télé-opération d'un bras et d'une main robotiques, le gant a été comparé à deux conditions de référence: retour visuel seul et retour haptique mono-axial. Le retour planaire réduit significativement l'erreur de force de contact lors de manipulations précises, améliore la répétabilité inter-essais, et hausse les scores d'expérience utilisateur sur des tâches de sondage axial. Le hardware et le software seront publiés en open-source sur le dépôt de l'ARC Lab. Ce résultat adresse directement un angle mort persistant de la télé-opération haptique: sans information sur la direction de la force appliquée, un opérateur compense par la vision seule, ce qui génère des sur-pressions systématiques, une forte variabilité et une perte de précision dans les gestes fins. Pour les équipes qui collectent des données de démonstration robotique (learning from demonstrations, LfD) pour entraîner des politiques de manipulation dextre, la fidélité du retour d'effort est critique: un gant qui ne transmet que l'intensité introduit un biais dans les trajectoires capturées. La capacité du N2D à réduire l'erreur de force en télé-opération suggère que les données produites avec ce type de gant seraient plus représentatives des stratégies de contact humain réel, ce qui est directement pertinent pour les équipes humanoides actuelles. Le N2D s'inscrit dans un segment où plusieurs acteurs ont tenté de concilier précision et praticité. HaptX commercialise un gant pneumatique à retour de force multi-doigts, mais avec un encombrement et un poids importants; SenseGlove (Pays-Bas) propose un exosquelette à câbles ciblant la formation industrielle; Dexmo de Dexta Robotics offre un retour de force par doigt sans composante directionnelle planaire. Le N2D se distingue par la transparence mécanique réputée des transmissions à cabestan et par son approche open-source, rare dans ce domaine. Les auteurs ciblent trois débouchés: télé-opération contact-riche, simulation en réalité virtuelle et collecte de démonstrations pour l'apprentissage robotique. Le preprint ne mentionne ni partenaire industriel ni calendrier de commercialisation; l'étude reste un prototype de laboratoire validé en conditions contrôlées.

UELa publication open-source du N2D constitue une pression concurrentielle indirecte pour SenseGlove (Pays-Bas), acteur européen du gant haptique à câbles ciblant la formation industrielle.

RecherchePaper
1 source
Récupération robuste après chute pour robots bipèdes à roues sans bras par apprentissage guidé par les forces
293arXiv cs.RO 

Récupération robuste après chute pour robots bipèdes à roues sans bras par apprentissage guidé par les forces

Des chercheurs présentent FTSR (Force-guided Teacher-student framework with Stage-wise Rewards), une méthode d'apprentissage par renforcement pour la récupération après chute des robots bipèdes à roues sans bras, publiée sur arXiv en juin 2026 (arXiv:2606.14270). En simulation, une force auxiliaire externe corrélée en temps réel à la hauteur du robot est formulée comme contrainte optimisable : l'algorithme d'apprentissage contraint pousse la politique à réduire progressivement sa dépendance à cette force tout en relevant le corps. Une architecture teacher-student distille la connaissance privilégiée des dynamiques de récupération, structurée par des récompenses progressives par seuils de hauteur (height-progressive stage-wise rewards). La politique est ensuite déployée sur un robot bipède à roues sans bras physique, testée dans des conditions variées et difficiles, et transfère également à un humanoïde à nombreux degrés de liberté (high-DOF). Sans bras ni pattes supplémentaires pour générer des forces d'appui, un bipède à roues figure parmi les morphologies robotiques les plus contraintes pour la récupération après chute. FTSR contourne ce verrou en injectant une force auxiliaire virtuelle pendant l'entraînement en simulation, puis en la supprimant graduellement via une contrainte optimisable : le robot développe ainsi des stratégies de redressement internes sans jamais dépendre d'un artefact absent en conditions réelles. La validation sim-to-real sur robot physique, combinée à la généralisation à un humanoïde high-DOF sans sur-adaptation à une cinématique spécifique, renforce la crédibilité pratique de l'approche pour les équipes travaillant sur plusieurs plateformes. C'est précisément ce gap entre démonstration en simulation et déploiement physique robuste que FTSR cherche à combler, avec des résultats qui méritent d'être suivis. Les robots bipèdes à roues occupent une niche croissante entre les AMR classiques et les humanoïdes complets : ils combinent mobilité sur terrain plat et capacité partielle à franchir des obstacles, à un coût mécanique inférieur. Sur le problème précis de la récupération après chute, les travaux existants se concentrent sur les humanoïdes avec bras (Boston Dynamics Atlas) et les quadrupèdes multi-pattes (ANYmal d'ANYbotics, Unitree Go2), laissant peu de littérature sur les morphologies intermédiaires sans membres supérieurs. FTSR reste à ce stade un preprint arXiv sans déploiement industriel annoncé et sans plateforme commerciale nommée ; les suites naturelles seraient une évaluation sous perturbations extérieures actives et une intégration dans une stack de navigation autonome complète.

RecherchePaper
1 source
TRACE : mémoire causale guidée par trajectoire pour l'imitation visuomotrice à indices différés
294arXiv cs.RO 

TRACE : mémoire causale guidée par trajectoire pour l'imitation visuomotrice à indices différés

TRACE (TRAjectory-routed Causal Evidence) est un framework mémoire pour les politiques visuomotrices d'imitation, présenté dans un preprint arXiv publié en juin 2026 (arXiv:2606.14551) par une équipe de l'Université Zhejiang. Le problème central : lorsqu'un robot opère en autonomie sur une séquence longue, certains indices visuels critiques (couleur d'un objet, panneau de direction, marquage au sol) disparaissent du champ de vision avant que la décision correspondante doive être prise. Ces situations dites de "preuve différée" (delayed-evidence) créent une ambiguïté directe : deux observations visuellement identiques peuvent exiger des actions opposées selon ce que le robot a perçu plus tôt. TRACE y répond en maintenant une mémoire latente de taille fixe, indexée non par le temps brut ni par des étiquettes de tâche fournies manuellement, mais par des "signatures de trajectoire" (path signatures), des descripteurs compacts et ordonnés de la trajectoire d'état cinématique du robot. Ces signatures servent de clés pour écrire et récupérer les preuves visuelles stockées au moment où l'indice était encore visible. Le système s'intègre via des adaptateurs légers sans modifier le backbone, la tête d'action ni l'objectif d'imitation. L'enjeu pratique est réel pour les systèmes de manipulation longue durée. La quasi-totalité des politiques visuomotrices actuelles, qu'elles soient basées sur des Diffusion Policies, des transformers ou des modèles VLA (Vision-Language-Action), supposent implicitement que l'observation courante constitue un état suffisant pour le contrôle. TRACE démontre expérimentalement, sur des tâches réelles de manipulation avec des points de branchement visuellement ambigus, que cette hypothèse échoue dès qu'une décision dépend d'un indice passé. Les résultats surpassent les baselines concurrentes, dont les politiques à historique court et les mémoires récurrentes classiques (LSTM, GRU), sur deux métriques : sélection correcte de branche et taux de succès global. La mémoire à taille bornée évite par ailleurs l'accumulation qui pénalise les architectures à attention sur contexte long lors d'épisodes étendus. Ce travail s'inscrit dans un débat actif sur la mémoire épisodique pour robots manipulateurs. Les approches existantes incluent les RNN embarquées dans la politique, les mécanismes d'attention sur l'historique visuel exploités dans RT-2 et pi-0 (Physical Intelligence), et les Memory-Augmented Neural Networks. TRACE se distingue par son découplage entre l'indice visuel (stocké comme vecteur latent) et la clé de récupération (signature cinématique pure), ce qui le rend robuste aux variations d'apparence tout en restant sensible au chemin parcouru. Il s'agit d'une contribution de recherche fondamentale sans déploiement industriel annoncé ; les suites naturelles incluent l'intégration à des politiques de référence comme ACT ou Diffusion Policy, et la validation sur des horizons plus longs en environnement non structuré.

RechercheOpinion
1 source
Un modèle basé sur l'attention pour la prévision robuste face aux modalités manquantes
295arXiv cs.RO 

Un modèle basé sur l'attention pour la prévision robuste face aux modalités manquantes

Des chercheurs ont publié le 18 juin 2026 sur arXiv (arXiv:2606.13970) un modèle d'apprentissage multimodal conçu pour fonctionner en présence de données sensorielles incomplètes, une contrainte courante dans les systèmes robotiques réels. L'architecture combine un autoencodeur variationnel conditionnel (CVAE) et un réseau de transformers exploitant des mécanismes d'attention pour produire une représentation vectorielle de dimension fixe, même lorsqu'une ou plusieurs modalités sont absentes, aussi bien en phase d'entraînement qu'à l'inférence. Le modèle a été évalué sur cinq jeux de données multimodaux couvrant deux tâches distinctes : la prédiction de trajectoires humaines et la prévision de manipulations robotiques. Sur l'ensemble de ces benchmarks, il surpasse les approches de fusion multimodale précédemment publiées, selon les métriques rapportées par les auteurs. Ce travail s'attaque à un verrou réel du déploiement robotique : les modèles multimodaux existants supposent quasi-universellement que toutes les modalités (vision, profondeur, proprioception, LiDAR, etc.) sont disponibles simultanément, une hypothèse rarement vérifiée en production. Une caméra obstruée, un capteur de force défaillant ou une latence réseau suffit à faire chuter les performances d'un pipeline classique. En formulant le problème comme un apprentissage conditionnel plutôt qu'une fusion rigide, les auteurs permettent au modèle d'approximer une représentation robuste à partir de l'information partielle disponible, ce qui ouvre la voie à des architectures tolérantes aux pannes sans recourir à des modules de gestion d'exception ad hoc. Pour un intégrateur ou un COO industriel, c'est la promesse de systèmes plus résilients face aux aléas terrain, à condition que les gains en conditions réelles confirment les résultats sur benchmarks. Le problème de la modalité manquante est connu en apprentissage automatique depuis les travaux sur les données tabulaires incomplètes, mais son traitement dans le contexte des robots physiques est resté marginal, la majorité des efforts récents se concentrant sur les architectures VLA (Vision-Language-Action) comme Pi-0 ou GR00T N2, qui présupposent des flux visuels stables. Ce papier s'inscrit dans un courant de recherche plus discret mais potentiellement structurant, aux côtés de travaux sur la robustesse sensorielle et le sim-to-real transfer. L'article est un preprint arXiv non encore évalué par les pairs, et les benchmarks retenus (trajectoires humaines, manipulation) ne couvrent pas des scénarios industriels complexes comme la navigation en entrepôt ou l'assemblage multi-bras. Les prochaines étapes naturelles seraient une validation sur des plateformes physiques réelles et une comparaison avec des approches de type dropout multimodal ou récents travaux sur l'imputation par diffusion.

RecherchePaper
1 source
SplatlessDF : cartographie continue de champ de distance avec des gaussiennes sans splatting
296arXiv cs.RO 

SplatlessDF : cartographie continue de champ de distance avec des gaussiennes sans splatting

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.13990) SplatlessDF, un cadre de cartographie par champ de distance continu (DF) qui réutilise les primitives gaussiennes non pas pour le rendu visuel, mais pour la représentation spatiale. Contrairement aux méthodes classiques de Gaussian Splatting (GS) optimisées pour la reconstruction photométrique, SplatlessDF paramètre directement des éléments gaussiens anisotropes dans le domaine spatial afin de produire un champ de distance différentiable. Le système supporte deux modes d'utilisation : une formulation autonome centrée uniquement sur le champ de distance, et une formulation conjointe couplée à la méthode 2D Gaussian Splatting (2DGS), qui combine dans un seul pipeline la modélisation DF et le rendu photométrique. Les expériences rapportées montrent que la formulation autonome fournit des requêtes de distance et de gradient précises et efficaces, tandis que la formulation conjointe améliore simultanément la géométrie de rendu et la qualité du champ de distance. L'intérêt pratique est significatif pour la robotique mobile : un champ de distance continu et différentiable permet de requêter directement les distances aux obstacles et leurs gradients, deux grandeurs fondamentales pour la planification de trajectoire, l'évitement de collision, et le contrôle en boucle fermée. En réorientant les Gaussians vers la représentation spatiale plutôt que photométrique, SplatlessDF suggère que le paradigme GS, jusqu'ici cantonné à la reconstruction 3D et la synthèse d'images, peut alimenter des modules de navigation sans nécessiter de représentations hybrides (grilles d'occupation, TSDF, réseaux implicites). Le cadre unifié GS pour DF et rendu pourrait simplifier les pipelines de cartographie embarquée pour robots industriels et mobiles autonomes. Le Gaussian Splatting a été popularisé par les travaux de Kerbl et al. (2023), et la variante 2DGS cible spécifiquement la reconstruction de surface. SplatlessDF s'inscrit dans un courant croissant qui cherche à étendre ces représentations au-delà de la vision, aux côtés d'autres approches comme les champs de distance neuraux basés sur NeRF (iSDF, NeuralBlox) ou les grilles ESDF classiques (Voxblox, FIESTA). Ce preprint ne mentionne pas de déploiement réel ni de partenariat industriel : il s'agit d'une contribution de recherche avec validation expérimentale en environnement contrôlé, sans timeline commerciale annoncée.

RecherchePaper
1 source
Formage de sensibilité pour la modélisation latente
297arXiv cs.RO 

Formage de sensibilité pour la modélisation latente

Des chercheurs ont soumis en juin 2026 (arXiv:2606.14585) une méthode de régularisation pour les modèles de dynamique génératifs utilisés en planification robotique. La contribution centrale, baptisée "régularisation de sensibilité au contrôle conditionnée par le support", s'attaque à un angle mort dans les systèmes de détection hors-distribution (OOD) actuels. Le problème identifié : lorsqu'un modèle de dynamique appris est localement insensible à certains choix d'action critiques, une commande non supportée peut produire des prédictions latentes qui ressemblent à des transitions déjà vues à l'entraînement, masquant les signaux OOD malgré des erreurs de prédiction réelles importantes. Les expériences couvrent trois scénarios : l'évitement d'obstacles par vision, la manipulation d'objets, et la navigation sur robot réel en boucle fermée. Ce résultat touche directement le déploiement sûr de robots pilotés par apprentissage dans des environnements non contrôlés. La détection OOD est le filet de sécurité qui permet à un contrôleur de signaler qu'il opère hors de sa distribution de compétence, plutôt que d'extrapoler dangereusement. Les méthodes existantes greffent a posteriori des estimateurs de support sur un modèle de dynamique figé, et échouent précisément dans les zones critiques où le modèle est le moins discriminant sur les actions. La méthode proposée intervient pendant l'entraînement : elle pousse le modèle à répondre de manière sensible aux variations de commande dans les régions à fort support empirique, tout en limitant l'extrapolation instable là où les données manquent. C'est une correction intrinsèque au processus d'apprentissage, pas un ajout post-hoc. Le travail s'inscrit dans le courant des modèles du monde latents pour la robotique, une famille qui inclut des architectures comme RSSM (utilisé dans Dreamer), TDMPC ou les représentations sous-jacentes à des systèmes comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. La fermeture du "demo-to-reality gap" et la fiabilité en boucle fermée restent des obstacles majeurs pour les intégrateurs cherchant à déployer des robots en milieu industriel non structuré. Les résultats reportés montrent une amélioration de la détection OOD sans dégradation notable de la performance nominale du planificateur, bien que les benchmarks restent limités à des tâches de laboratoire. Une validation sur des plateformes AMR ou humanoïdes en conditions réelles constituerait la prochaine étape naturelle pour crédibiliser l'approche à l'échelle industrielle.

RecherchePaper
1 source
AnyGoal : exploration multi-agents guidée par vision-langage pour une navigation permanente sans entraînement
298arXiv cs.RO 

AnyGoal : exploration multi-agents guidée par vision-langage pour une navigation permanente sans entraînement

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.13878) AnyGoal, une architecture multi-agents de navigation en intérieur conçue pour fonctionner sans entraînement préalable sur les scènes cibles. Le système coordonne plusieurs robots via une carte partagée appelée Bayesian Value Map (BVM), une grille 2D maintenant pour chaque pixel une distribution gaussienne (μ, σ²) représentant la pertinence estimée de l'objectif. Cette carte est mise à jour par fusion pondérée des scores issus d'un modèle vision-langage (VLM), projetés via un masque conique de profondeur, et n'est jamais remise à zéro entre les sous-tâches, permettant une accumulation d'indices dite « lifelong ». Sur le benchmark GOAT-Bench (360 épisodes, 2 669 sous-tâches, configuration physique stricte : pas discrets de 0,25 m, champ de vision horizontal de 42°, sans téléportation), la version bi-agent atteint 52,4 % de taux de réussite par sous-tâche (Subtask SR) pour un SPL de 12,7 %, contre 41,9 % en configuration mono-agent. Ce résultat représente un gain de +27,5 points de pourcentage sur Modular GOAT (24,9 %), le système modulaire de référence précédent, ce qui est substantiel dans un domaine où les progrès se mesurent souvent en quelques points. L'intérêt principal réside dans l'approche sans entraînement : là où la plupart des politiques de navigation end-to-end se dégradent dès qu'elles rencontrent des scènes, des catégories d'objets ou des modalités d'objectif hors distribution, AnyGoal s'appuie sur la généralisation intrinsèque du VLM. L'ablation à quatre variables de perception révèle que l'intégration de détecteurs open-vocabulary déplace le goulot d'étranglement : la cause principale d'échec n'est plus l'exploration, mais la vérification de l'objectif, un déplacement de problème qui oriente clairement les futurs travaux. AnyGoal s'inscrit dans la lignée des travaux tentant de remplacer les pipelines fermés (détection à ensemble d'objets fixe, comme dans Modular GOAT) et les mémoires 3D denses (comme 3D-Mem, coûteuses à maintenir et sensibles au point de vue) par des représentations légères pilotées par le langage. La coordination multi-agents repose ici sur un allocateur glouton avec pénalité de séparation spatiale et hysteresis d'engagement, sans contrôleur centralisé, ce qui simplifie le déploiement. L'architecture reste à ce stade une contribution de recherche publiée sur preprint ; aucun pilote industriel ni déploiement réel n'est annoncé. Les prochaines étapes naturelles concernent la robustesse du VLM à la vérification de but et l'extension à des environnements semi-structurés ou extérieurs, où la généralisation sera encore plus mise à l'épreuve.

RecherchePaper
1 source
BIM-Loc : localisation intérieure par LiDAR intégrée au BIM et sensible aux écarts
299arXiv cs.RO 

BIM-Loc : localisation intérieure par LiDAR intégrée au BIM et sensible aux écarts

Une équipe de chercheurs publie BIM-Loc sur arXiv (identifiant 2606.14237), une méthode de localisation LiDAR pour robots de service et d'inspection en intérieur qui exploite directement les maquettes numériques BIM (Building Information Model) issues de la phase de conception des bâtiments, sans nécessiter la création préalable d'une carte dédiée. Le système estime en temps réel la trajectoire du robot dans le repère de coordonnées BIM et détecte simultanément les écarts entre l'environnement réel et la maquette as-designed. Trois contributions techniques structurent l'approche : un algorithme de lancer de rayons multi-impact pour associer les points LiDAR aux surfaces BIM et projeter les observations 3D dans un espace de texture 2D ; un cadre d'optimisation par graphe de poses intégrant des facteurs BIM pour garantir la cohérence entre l'odométrie, les scans successifs et la géométrie du bâtiment ; et un module d'inférence bayésienne hiérarchique qui met à jour de façon incrémentale une représentation surfacique 2D continue, en propageant les détections du pixel jusqu'au niveau structurel. L'enjeu central est la localisation dans les environnements intérieurs peu distinctifs, couloirs d'hôpitaux, open spaces, entrepôts, où les systèmes SLAM classiques échouent faute de repères géométriques saillants. BIM-Loc contourne ce problème en utilisant une source de données déjà présente dans la majorité des bâtiments modernes : le fichier BIM produit lors de la conception. Pour les intégrateurs de robots de service, cela supprime l'étape coûteuse de cartographie préalable et permet un déploiement rapide. La capacité de détection des écarts apporte également une valeur concrète pour les missions d'inspection de conformité, en signalant automatiquement les modifications non documentées d'un bâtiment. Selon les auteurs, BIM-Loc surpasse significativement les méthodes map-based de l'état de l'art en précision et en robustesse, bien que les métriques précises (RMSE, ATE) ne soient pas détaillées dans l'abstract. La localisation en intérieur reste un problème ouvert depuis les premières générations de robots mobiles. Les approches dominantes, SLAM 2D/3D, localisation Monte Carlo, NDT matching, reposent sur des cartes issues de relevés terrain, ce qui pose des problèmes de maintenance dans les environnements changeants. L'utilisation des BIM comme prior a été explorée dans des travaux antérieurs en réalité augmentée pour le BTP, mais leur intégration dans un pipeline de localisation temps réel avec détection de discordances constitue une contribution distincte. Dans l'espace concurrent, des systèmes comme Cartographer (Google) ou les solutions propriétaires de MiR opèrent principalement avec des grilles d'occupation 2D. Aucun partenariat industriel ni calendrier de transfert technologique n'est mentionné dans ce preprint ; la prochaine étape naturelle serait une validation dans des environnements à forte densité de personnes en mouvement.

UEL'adoption du BIM étant réglementairement encouragée dans les marchés publics européens, la méthode pourrait faciliter le déploiement de robots de service dans des bâtiments déjà dotés de maquettes numériques, mais aucune entreprise ou institution française ou européenne n'est impliquée dans ces travaux.

RecherchePaper
1 source
SyLink Hand : main anthropomorphe à mécanisme de bielles inspiré des synergies pour une dextérité humaine
300arXiv cs.RO 

SyLink Hand : main anthropomorphe à mécanisme de bielles inspiré des synergies pour une dextérité humaine

Une équipe de chercheurs a publié en juin 2026 sur arXiv (preprint 2606.14250) les spécifications techniques de la SyLink Hand, une main robotique anthropomorphe de 520 grammes conçue pour reproduire la cinématique de la main humaine avec un budget de fabrication d'environ 400 dollars. La conception repose sur deux principes combinés : les synergies biomécaniques de la main humaine, identifiées grâce à des gants de capture de mouvement qui révèlent de fortes corrélations entre articulations voisines, et des mécanismes de liaisons rigides (linkages) qui coordonnent plusieurs joints à partir d'un seul actionneur. Résultat : 19 articulations pilotées par seulement 11 actionneurs. L'équipe introduit également une liaison à quatre barres sphérique originale permettant de découpler indépendamment la flexion/extension et l'abduction/adduction à l'articulation métacarpophalangienne (MCP), dans un encombrement compact. Ce rapport de 11 actionneurs pour 19 degrés de liberté est le point saillant de ce travail. Dans la plupart des mains dextres existantes, la multiplication des actionneurs fait exploser masse, coût et complexité de contrôle. En s'appuyant sur les synergies naturelles de la main (le fait que les doigts bougent rarement de façon totalement indépendante), les auteurs réduisent le problème sans sacrifier l'anthropomorphisme cinématique. Un coût de fabrication de 400 dollars positionne la SyLink Hand très en dessous des références académiques comme la Shadow Hand (plusieurs dizaines de milliers d'euros) ou l'Allegro Hand (Wonik Robotics, environ 4 000 dollars). Cela ouvre un couloir d'accessibilité pour la robotique de service, les plateformes de recherche ou l'intégration dans des humanoïdes à budget contraint. Reste à noter que les évaluations présentées sont expérimentales et issues d'un prototype de laboratoire : aucun déploiement industriel ni partenariat industriel n'est annoncé. Cette publication s'inscrit dans une compétition académique et industrielle dense autour des mains robotiques dextres. Shadow Robot (UK) domine le segment haute performance avec la Dexterous Hand, tandis que des projets open-source comme LEAP Hand (Carnegie Mellon, 2023) ou la main de Dexterous Robotics ciblent également le compromis coût/performance. Côté humanoïdes, Figure (Figure 03), Tesla (Optimus Gen 3) et Agility Robotics développent leurs propres solutions de préhension intégrées. En Europe, des acteurs comme Enchanted Tools (France) conçoivent des mains orientées interaction sociale. La SyLink Hand, en tant que preprint sans partenaire industriel déclaré, reste pour l'instant une contribution académique prometteuse. Les suites dépendront de sa capacité à passer des tests de lab aux conditions réelles d'utilisation, notamment en durabilité des liaisons mécaniques sous cycles répétés.

RecherchePaper
1 source