Aller au contenu principal

Dossier arXiv cs.RO — page 19

969 articles · page 19 sur 20

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

FUNCanon : primitives d'action sensibles à la pose par canonicalisation fonctionnelle d'objets pour la manipulation robotique généralisable
901arXiv cs.RO RechercheOpinion

FUNCanon : primitives d'action sensibles à la pose par canonicalisation fonctionnelle d'objets pour la manipulation robotique généralisable

Des chercheurs ont publié FuncCanon sur arXiv (réf. 2509.19102, deuxième révision), un framework qui décompose les tâches de manipulation robotique à long horizon en séquences d'"action chunks", des triplets structurés (acteur, verbe, objet), pour apprendre des politiques généralisables à partir de démonstrations humaines. L'idée centrale est de centrer l'apprentissage sur les actions elles-mêmes, pas sur des tâches isolées, ce qui ouvre la voie à la composition et à la réutilisation de primitives. La brique technique originale est la "canonicalisation fonctionnelle d'objets" : les objets sont projetés dans des repères fonctionnels partagés en s'appuyant sur des cues d'affordance extraites de grands modèles vision-langage (VLM). Ce mapping automatique permet de transférer des trajectoires de manipulation entre instances d'une même catégorie sans nouvelles démonstrations. La politique apprise, FuncDiffuser, est une politique de diffusion centrée objet et action, entraînée sur ces données alignées et évaluée sur des benchmarks en simulation et en déploiement réel. L'abstract ne fournit pas de métriques précises (temps de cycle, taux de succès chiffré, nombre de DOF testés), ce qui limite l'évaluation indépendante à ce stade. Le problème que FuncCanon attaque directement est la généralisation hors distribution des politiques end-to-end issues de l'imitation learning, un obstacle bien documenté qui bloque le passage à l'échelle industrielle. En normalisant la pose et la fonctionnalité des objets avant l'apprentissage, FuncDiffuser n'a pas besoin de voir chaque instance d'une catégorie lors de l'entraînement, ce qui réduit structurellement le volume de démonstrations nécessaires par référence produit. Pour un intégrateur industriel, c'est un levier économique potentiellement significatif : le coût de télé-opération pour collecter des données reste l'un des principaux freins au déploiement de bras robotiques en production. Les auteurs revendiquent également une robustesse sim-to-real, mais sans chiffres publiés dans l'abstract, cette affirmation reste à vérifier sur les benchmarks complets disponibles sur le site du projet. FuncCanon s'inscrit dans une vague de travaux visant à dépasser les limites des politiques de diffusion pures (Diffusion Policy, Chi et al., 2023) en ajoutant des représentations sémantiques intermédiaires. Les approches concurrentes incluent Pi-0 de Physical Intelligence, qui exploite une architecture VLA (vision-language-action) pour la généralisation zéro-shot, et GR00T N2 de NVIDIA, qui mise sur un entraînement massif sur données synthétiques. ACT (Action Chunking with Transformers, Zhao et al., 2023) partage la logique de découpage en chunks mais sans canonicalisation fonctionnelle. L'utilisation des VLMs pour extraire des affordances plutôt qu'apprendre des représentations ad hoc est une tendance forte portée par RT-2 de Google DeepMind et OpenVLA. FuncCanon reste pour l'instant une contribution académique sans partenaire industriel ni timeline de commercialisation annoncée.

1 source
Modèles vision-langage-action (VLA) conditionnés par l'état de santé pour un contrôle robotique sensible aux pannes
902arXiv cs.RO 

Modèles vision-langage-action (VLA) conditionnés par l'état de santé pour un contrôle robotique sensible aux pannes

Une équipe de recherche publie sur arXiv (référence 2605.16056) un modèle VLA (Vision-Language-Action) capable d'adapter son comportement à la dégradation physique d'un robot, une problématique distincte des pannes de tâches habituellement ciblées par la littérature. L'approche repose sur l'injection d'un module "Health Projector" dans l'architecture VLA-Adapter : le modèle reçoit en entrée un vecteur de santé encodant l'amplitude articulaire et le couple disponible pour chaque joint. Entraîné sur 128 épisodes téléopérés collectés dans l'environnement de simulation LIBERO (benchmark Libero-Spatial), il parvient à compléter des tâches de manipulation spatiale avec des configurations de joints dégradés où le modèle de référence VLA-Adapter Libero-Spatial-Pro échoue systématiquement. Le code et le jeu de données seront prochainement disponibles sur GitHub (h-arslan/health-aware-vla). L'intérêt industriel est réel : dans les déploiements terrain, les robots accumulent des dégradations mécaniques progressives (usure articulaire, perte de couple, grippage de préhenseur) sans nécessairement déclencher d'alarme critique. Un contrôleur aveugle à cet état physique maintient ses consignes nominales et accumule les erreurs ; un modèle conditionné à la santé peut recalculer ses trajectoires à la volée. La modification proposée est présentée comme légère, ce qui suggère une intégration possible dans des pipelines VLA existants sans refonte complète. Cependant, les résultats restent limités à la simulation LIBERO avec 128 épisodes seulement, un jeu de données particulièrement restreint, et aucune validation sur robot physique n'est présentée, laissant le gap sim-to-real entièrement ouvert. Ce travail s'inscrit dans l'expansion rapide des VLA depuis 2023, portée par des modèles comme pi0 (Physical Intelligence), OpenVLA ou la famille RoboVLMs. VLA-Adapter, utilisé comme base ici, est une variante qui réduit les coûts de fine-tuning en gelant le backbone visio-langagier pour n'entraîner qu'un adaptateur léger. La résilience robotique est jusqu'ici majoritairement traitée côté contrôle bas niveau (détection de fautes, compensation par redondance articulaire) plutôt qu'au niveau de la politique visuo-langagière, ce qui rend l'angle de cette recherche original. Aucun acteur européen n'est impliqué dans cette publication. La prochaine étape logique serait une validation sur hardware réel avec des dégradations induites mécaniquement et un dataset substantiellement élargi pour crédibiliser le passage à l'échelle.

RechercheOpinion
1 source
Apprendre ce qui compte : objectifs adaptatifs fondés sur la théorie de l'information pour l'exploration robotique
903arXiv cs.RO 

Apprendre ce qui compte : objectifs adaptatifs fondés sur la théorie de l'information pour l'exploration robotique

Une équipe de chercheurs a publié en mai 2025 sur arXiv (référence 2605.12084) une méthode appelée Quasi-Optimal Experimental Design, ou QOED, visant à résoudre un problème fondamental de l'exploration robotique : comment guider un robot vers les expériences qui lui apprendront réellement quelque chose d'utile ? La méthode repose sur une analyse de l'espace propre de la matrice d'information de Fisher pour identifier les directions de paramètres réellement observables, puis modifie l'objectif d'exploration pour concentrer l'effort sur ces directions tout en atténuant l'influence des paramètres secondaires ("nuisance"). Évaluée sur des tâches de navigation et de manipulation en simulation et en conditions réelles, QOED génère un gain de performance de 35,23 % grâce à la sélection des directions identifiables, et de 21,98 % supplémentaires via la suppression des effets parasites. Intégrée comme objectif d'exploration dans une boucle d'optimisation de politique model-based, elle surpasse les baselines classiques de RL. Ce résultat compte parce qu'il attaque directement le goulot d'étranglement de l'apprentissage actif en robotique : dans les systèmes haute dimension (bras articulés, manipulation dextre, navigation en environnement non structuré), une large fraction des paramètres du modèle est faiblement observable, voire non identifiable. Les méthodes classiques de curiosité ou d'information gain mesurent une incertitude globale sans distinguer ce qui peut être réduit par l'expérience de ce qui ne le peut pas. QOED fournit une approximation à facteur constant de l'objectif idéal théorique, une garantie formelle rare dans ce champ, ce qui lui confère une légitimité au-delà de la démonstration empirique seule. La méthode s'inscrit dans une longue tradition de théorie du design expérimental optimal (OED) issue des statistiques, ici adaptée au cadre RL avec optimisation en ligne. Sur le plan concurrentiel, les approches voisines incluent les méthodes de curiosité bayésienne (type DIAYN ou LEXA) et les objectifs d'information mutuelle comme VIME ou Plan2Explore. QOED se distingue par son ancrage théorique rigoureux et l'explicitation du sous-espace identifiable, deux points que les méthodes heuristiques négligent. Aucun déploiement industriel ni partenaire n'est mentionné : il s'agit à ce stade d'un résultat académique, dont l'intégration dans des pipelines de calibration ou de sim-to-real reste à valider à plus grande échelle.

RecherchePaper
1 source
Rollbot : un robot sphérique propulsé par un seul actionneur
904arXiv cs.RO 

Rollbot : un robot sphérique propulsé par un seul actionneur

Rollbot, présenté dans un article de recherche déposé sur arXiv (réf. 2404.05120v2, révision 2024), est un robot sphérique prototype capable de se déplacer de façon contrôlée sur un plan 2D avec un seul actionneur. Le robot roule au sol en décrivant des arcs de cercle et ajuste la courbure de sa trajectoire en accélérant et décélérant son unique moteur ainsi que la masse solidaire attachée à celui-ci. Les auteurs ont dérivé des lois de contrôle fondées sur une dynamique dite "quasi-stable", et ont validé expérimentalement la capacité du système à suivre des waypoints successifs. Aucune institution ni source de financement n'est mentionnée dans l'abstract public. Ce travail remet en cause une contrainte de conception longtemps tenue pour acquise dans la robotique sphérique: l'obligation d'utiliser au minimum deux actionneurs pour obtenir un mouvement plan maîtrisé. Ramener ce seuil à un seul actionneur réduit mécaniquement la complexité structurelle, la consommation énergétique et le nombre de points de défaillance potentiels. Pour les concepteurs de robots d'inspection en espace confiné, de plateformes de surveillance ou de démonstrateurs éducatifs, cette approche peut ouvrir des architectures plus légères et moins coûteuses à produire. Il faut cependant noter que les résultats sont présentés en contexte laboratoire; aucune métrique de robustesse sur terrain non contrôlé ni de cycle de production n'est communiquée. Les robots sphériques à actionnement interne existent depuis les années 1990 dans la recherche académique, avec des prototypes issus de MIT, ETH Zurich ou Carnegie Mellon, et ont trouvé des applications limitées dans la surveillance et l'exploration. Côté produits grand public, Sphero a popularisé la forme, mais sans ambition de navigation autonome précise. Le créneau du robot sphérique à un seul actionneur reste un espace purement expérimental; la prochaine étape logique serait de démontrer la robustesse aux perturbations extérieures (surface irrégulière, contact), d'étendre le cadre théorique à la navigation 3D, et d'évaluer l'intégration de capteurs embarqués dans un volume aussi contraint.

RecherchePaper
1 source
BEACON : co-entraînement inter-domaines de politiques robotiques génératives par adaptation au mieux
905arXiv cs.RO 

BEACON : co-entraînement inter-domaines de politiques robotiques génératives par adaptation au mieux

Une équipe de chercheurs a publié sur arXiv en mai 2026 (arXiv:2605.08571) un cadre théorique baptisé BEACON -- acronyme de Best-Effort Adaptation for Cross-Domain Co-Training -- destiné à entraîner des politiques robotiques génératives lorsque les données dans le domaine cible sont rares. L'approche repose sur un mécanisme de pondération par importance : plutôt que de mélanger naïvement des démonstrations provenant de domaines sources abondants (simulation, autres environnements) avec un faible nombre de démonstrations réelles, BEACON apprend simultanément une politique visuomotrice basée sur la diffusion et des poids par échantillon source qui minimisent une fonction objectif garantissant la généralisation sur le domaine cible. Pour rendre cela praticable sur des séquences de haute dimension, les auteurs développent des estimateurs de divergence à l'échelle de l'instance, des mises à jour alternées stochastiques, et une extension multi-sources capable de pondérer des domaines sources hétérogènes. L'enjeu est directement lié au problème du sim-to-real gap, l'un des verrous principaux de la robotique de manipulation : collecter des démonstrations téléopérées dans le monde réel reste coûteux et lent, tandis que la simulation génère des données à bas coût mais au prix d'un écart de distribution souvent fatal au déploiement. BEACON montrerait, selon les auteurs, des gains de robustesse et d'efficacité de données par rapport à trois baselines majeures -- entraînement sur cibles seules, co-entraînement à ratio fixe, et alignement de features explicite -- dans des configurations sim-to-sim, sim-to-real et manipulation multi-sources. Le résultat le plus contre-intuitif est qu'en l'absence de tout objectif d'alignement explicite, BEACON produit néanmoins un alignement de représentations comme effet émergent de la pondération par divergence. Les auteurs ne fournissent pas de taux de réussite précis dans l'abstract, ce qui limite la comparaison directe avec des benchmarks publiés. Ce travail s'inscrit dans une vague de recherches sur le transfert de politiques entre domaines, portée notamment par des méthodes comme RoboAgent, DROID, ou les approches VLA (vision-language-action) de Physical Intelligence (Pi-0) et Google DeepMind (GR00T N2), qui cherchent elles aussi à tirer parti de données hétérogènes à grande échelle. Là où ces dernières misent sur des architectures généralistes entraînées sur des corpus massifs, BEACON propose un angle complémentaire et plus frugal : exploiter intelligemment des sources existantes sans disposer de millions de démonstrations. Le code et les expériences n'étant pas encore publics, il reste à confirmer si les résultats tiennent sur des tâches de manipulation réelle complexes hors du cadre contrôlé des évaluations présentées.

RechercheOpinion
1 source
ProcVLM : un modèle VLA apprenant des récompenses de progression ancrées dans les procédures pour la manipulation robotique
906arXiv cs.RO 

ProcVLM : un modèle VLA apprenant des récompenses de progression ancrées dans les procédures pour la manipulation robotique

Une équipe de recherche a publié en mai 2026 sur arXiv (référence 2605.08774) ProcVLM, un modèle vision-langage conçu pour générer des signaux de récompense denses dans les tâches de manipulation robotique à longue durée. Contrairement aux approches existantes qui s'appuient sur des étiquettes de succès en fin de trajectoire ou sur une interpolation temporelle, ProcVLM ancre son estimation de progression dans la structure procédurale de la tâche et dans les changements visuels au sein de chaque sous-étape. Le modèle adopte un paradigme "raisonner avant d'estimer" : il infère d'abord les actions atomiques restantes avant de chiffrer l'avancement global. Pour l'entraîner à grande échelle, les auteurs ont constitué ProcCorpus-60M, un corpus de 60 millions de trames annotées issues de 30 jeux de données embodied, dont est dérivé ProcVQA, un benchmark couvrant l'estimation de progression, la segmentation d'actions et la planification prospective. L'enjeu est direct pour les intégrateurs et les équipes travaillant sur la manipulation longue durée, comme l'assemblage multi-étapes, le conditionnement ou la maintenance industrielle. Les modèles de récompense classiques, en confondant temps écoulé et progression réelle, sont incapables de détecter stagnation, étapes manquées ou états d'échec intermédiaires. ProcVLM produit des estimations discriminantes intra-trajectoire, ce qui en fait un composant plus utile pour la policy optimization guidée par récompense. Les expériences publiées montrent des gains mesurés sur ProcVQA et sur des benchmarks de modèles de récompense face aux baselines représentatives. Ces résultats restent néanmoins dans le cadre de la simulation et de l'évaluation hors-ligne : aucun déploiement sur robot physique n'est annoncé. Ce travail s'inscrit dans une tendance de fond visant à améliorer la qualité des signaux de supervision pour les modèles vision-langage-action (VLA), un chantier central depuis la publication de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA. Le problème du reward shaping dans les tâches manipulatoires longues est un verrou bien identifié : le sim-to-real gap se double d'un gap supervision-comportement quand les étiquettes de succès sont trop parcimonieuses. ProcVLM propose une réponse méthodologique à ce second verrou via un corpus de supervision synthétique à 60 millions de trames, mais demeure à ce stade un preprint académique sans validation sur hardware réel annoncée. La page projet (procvlm.github.io) est en ligne, sans date de release du code ou des données précisée.

RechercheOpinion
1 source
IA incarnée : PathPainter transfère les capacités de généralisation des modèles génératifs à la navigation robotique
907arXiv cs.RO 

IA incarnée : PathPainter transfère les capacités de généralisation des modèles génératifs à la navigation robotique

Des chercheurs ont publié en mai 2026 sur arXiv (référence 2605.07496) PathPainter, un système de navigation autonome pour robots terrestres et aériens à basse altitude. Le principe central consiste à utiliser des images en vue aérienne (BEV, Bird's-Eye-View) comme prior global de l'environnement. Un modèle génératif d'images interprète une instruction en langage naturel, identifie la destination cible, puis génère automatiquement un masque de traversabilité indiquant les zones navigables. Pendant l'exécution, un module de localisation croisée (cross-view localization) aligne l'odométrie du robot sur la carte BEV pour compenser la dérive à long terme, défaut classique des systèmes odométriques conventionnels. Le système a été validé sur un drone UAV qui a complété une navigation extérieure de 160 mètres en environnement réel, en s'appuyant uniquement sur un planificateur de mouvement local standard. Ce travail illustre une tendance de fond dans la robotique : extraire la capacité de généralisation des grands modèles de fondation (ici un modèle de génération d'images) pour l'injecter dans des pipelines embarqués, sans les réentraîner de zéro. Le transfert de compréhension du monde vers la navigation incarnée (embodied navigation) est l'un des verrous techniques les plus discutés dans le secteur. PathPainter montre qu'un modèle génératif peut jouer le rôle de module de perception sémantique et de planification de haut niveau, réduisant la dépendance à des capteurs 3D coûteux ou à des cartes métriques préconstruites. La validation sur 160 mètres en extérieur reste modeste et les conditions précises du test ne sont pas détaillées dans l'abstract, ce qui invite à relativiser les conclusions avant une évaluation sur benchmarks standardisés. PathPainter s'inscrit dans l'essor des architectures VLA (Vision-Language-Action) appliquées à la navigation, un domaine où plusieurs groupes travaillent simultanément, notamment autour de modèles comme RT-2 (Google DeepMind), OpenVLA ou des travaux issus de Carnegie Mellon et Berkeley sur la navigation en langage naturel. L'usage de la vue aérienne comme prior global rappelle les approches de navigation par carte sémantique de haut niveau, mais ici la carte n'est pas fournie par un opérateur humain : elle est générée à la demande par le modèle. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks de navigation intérieure (Habitat, R2R) et une extension à des plateformes terrestres en environnement industriel ou logistique.

IA physiqueOpinion
1 source
Contrôle anti-enchevêtrement par topologie pour robots souples
908arXiv cs.RO 

Contrôle anti-enchevêtrement par topologie pour robots souples

Des chercheurs ont publié sur arXiv (référence arXiv:2605.05236v1) un cadre d'apprentissage par renforcement multi-agent baptisé TD-MARL (Topology-Driven Multi-Agent Reinforcement Learning), conçu pour coordonner plusieurs robots souples afin d'éviter les enchevêtrements dans des environnements de fabrication de précision fortement contraints. L'architecture repose sur un réseau critique à apprentissage centralisé, permettant à chaque agent de percevoir les stratégies de ses homologues via un état topologique partagé, couplé à une exécution distribuée qui supprime tout besoin de communication inter-robots en temps réel. Un composant central, la couche de sécurité topologique, exploite des invariants topologiques pour évaluer quantitativement et atténuer les risques d'enchevêtrement avant qu'ils ne bloquent les trajectoires. Les expériences présentées sont entièrement en simulation ; aucun déploiement sur hardware physique n'est rapporté à ce stade. Ce travail s'attaque à un verrou identifié dans les systèmes multi-robots déformables : les frameworks distribués classiques peinent à converger en environnements haute densité d'obstacles, car l'observabilité partielle de chaque agent génère une instabilité d'entraînement. En introduisant la topologie comme état partagé plutôt que des coordonnées brutes, TD-MARL réduit la dimensionnalité du problème de coordination tout en préservant l'information structurelle critique pour le désenchevêtrement. Pour les intégrateurs industriels qui déploient des robots souples en assemblage de précision ou en gestion de câbles, cette approche ouvre la voie à une coordination autonome sans infrastructure de communication dédiée, simplifiant l'architecture système. Le papier ne quantifie pas l'écart simulation-réel (sim-to-real gap), ce qui constitue la principale limite à l'extrapolation industrielle. La robotique souple connaît un regain d'intérêt pour les tâches de manipulation en espace confiné, portées par des équipes académiques en Chine, en Europe et aux États-Unis. Sur le plan du contrôle multi-agent, TD-MARL s'inscrit dans la lignée des approches CTDE (Centralized Training, Decentralized Execution) popularisées par MADDPG et MAPPO, en y ajoutant une couche topologique inspirée de la théorie des noeuds et de l'homologie persistante. Aucun concurrent industriel direct n'est nommé dans l'article, le benchmarking se faisant exclusivement contre des méthodes DRL de référence en simulation. La prochaine étape naturelle, et condition sine qua non pour un transfert industriel, serait une validation sur banc de test physique avec des corps déformables réels.

RecherchePaper
1 source
SwarmCoDe : cadre de co-conception évolutif pour essaims de robots hétérogènes par spéciation dynamique
909arXiv cs.RO 

SwarmCoDe : cadre de co-conception évolutif pour essaims de robots hétérogènes par spéciation dynamique

SwarmCoDe est un algorithme de co-évolution collaborative (CCEA) présenté dans un preprint arXiv (2603.26240v2) qui vise à automatiser la co-conception d'essaims de robots hétérogènes à grande échelle. La méthode centrale, dite "spéciation dynamique", fait émerger automatiquement des espèces de robots distinctes en fonction de la complexité de la tâche, sans les définir a priori. L'algorithme optimise simultanément la planification de tâches et la morphologie physique des robots, sous contrainte de budget de fabrication. Il intègre un "gène de dominance" qui dicte la composition de l'essaim, et des "tags génétiques" inspirés de mécanismes biologiques de coopération inter-espèces, permettant aux agents d'identifier des partenaires bénéfiques sans frontières prédéfinies. Les expériences rapportées, toutes simulées, montrent des essaims pouvant atteindre 200 agents, soit quatre fois la taille de la population évolutionnaire utilisée pour les générer. Le problème que SwarmCoDe cherche à résoudre est structurel : dans les approches classiques, la co-conception d'un essaim devient rapidement intractable à mesure que le nombre d'agents augmente, l'espace de design croissant exponentiellement. Le gène de dominance découple la taille physique de l'essaim de la population évolutionnaire, ce qui constitue la contribution technique principale : elle rend le calcul viable pour de grands systèmes sans explosion des ressources computationnelles. Pour les intégrateurs industriels et les équipes R&D déployant des flottes de robots, cela ouvre la perspective d'une optimisation automatique de la diversité matérielle, plutôt qu'une définition manuelle du mix robotique. Les améliorations marginales sur chaque unité se composent à l'échelle, ce qui explique pourquoi le co-design est stratégique dès qu'on parle de dizaines ou centaines d'agents en déploiement réel. La co-conception robotique est un domaine actif depuis une décennie, mais généralement appliquée à des robots unitaires ou de petits groupes homogènes. SwarmCoDe s'inscrit dans la continuité des travaux sur l'évolution morphologique (NEAT, neuroévolution) et des recherches sur les essaims hétérogènes, notamment des groupes comme celui de Josh Bongard à l'Université du Vermont. Les approches concurrentes incluent l'optimisation multi-objectif classique et les frameworks de co-design par gradient. Point critique à noter : l'article ne présente aucune validation sur robots physiques, toutes les métriques étant issues de simulation. Le fossé sim-to-real reste un verrou non adressé dans ce travail, et constituera l'épreuve décisive pour une adoption en contexte industriel.

RecherchePaper
1 source
Navigation multimodale par apprentissage par renforcement multi-agents
910arXiv cs.RO 

Navigation multimodale par apprentissage par renforcement multi-agents

Des chercheurs ont publié CRONA (Cross-Modal Navigation), un framework basé sur l'apprentissage par renforcement multi-agent (MARL), disponible en préprint sur arXiv (identifiant 2605.06595). Plutôt que d'entraîner un modèle monolithique fusionnant simultanément plusieurs flux sensoriels, ce qui génère des espaces de représentation complexes et élargit considérablement l'espace de politiques à explorer, CRONA déploie des agents légers spécialisés par modalité, coordonnés par un critique centralisé multi-modal disposant d'un état global partagé et de représentations auxiliaires orientées contrôle. Les expériences portent sur des tâches de navigation visuo-acoustique : CRONA surpasse les baselines à agent unique en performance et en efficacité. Les auteurs identifient trois régimes distincts : la collaboration homogène (agents de même modalité) suffit pour la navigation courte portée avec indices saillants ; la collaboration hétérogène (modalités complémentaires) est généralement efficace ; les grands environnements complexes réclament une perception plus riche et une capacité modèle accrue. L'enjeu industriel est la modularité. Fusionner vision, audio et autres capteurs dans un seul réseau reste un obstacle majeur pour les robots incarnés opérant en milieux non contrôlés, entrepôts, espaces publics, bâtiments industriels. En découplant les modalités en agents parallèles indépendants, CRONA simplifie l'acquisition de données (chaque modalité peut être entraînée séparément) et permet de remplacer ou affiner un capteur sans réentraîner l'ensemble du système. Pour les intégrateurs B2B, la taxonomie des trois régimes de navigation constitue une heuristique pratique pour dimensionner les architectures embarquées selon la complexité des scénarios cibles. La navigation audio-visuelle incarnée s'appuie sur des environnements de référence établis comme SoundSpaces et Matterport3D. L'originalité de CRONA réside dans l'application du MARL à ce problème, là où la littérature récente privilégie les architectures Transformer multi-modales de type VLA (Vision-Language-Action). Aucun partenariat industriel ni calendrier de déploiement n'est mentionné : il s'agit d'un preprint sans validation sur hardware réel, ce qui laisse ouverte la question du sim-to-real gap, particulièrement critique pour les signaux acoustiques en environnement non contrôlé. La prochaine étape logique serait une validation sur plateforme robotique physique.

RecherchePaper
1 source
Génie logiciel pour la robotique auto-adaptative : un programme de recherche
911arXiv cs.RO 

Génie logiciel pour la robotique auto-adaptative : un programme de recherche

Une équipe de chercheurs a soumis sur arXiv (réf. 2505.19629, troisième version) un agenda de recherche structuré pour le génie logiciel appliqué aux systèmes robotiques auto-adaptatifs. Contrairement aux robots industriels classiques dont le comportement est entièrement prédéfini au moment du déploiement, les systèmes auto-adaptatifs sont conçus pour modifier leur propre logique en cours d'exécution, en réponse à des environnements dynamiques et incertains. L'article organise cet agenda autour de deux axes : d'une part, le cycle de vie logiciel complet (spécification des exigences, conception, développement, test, opérations), adapté aux contraintes de l'auto-adaptation ; d'autre part, les technologies habilitantes telles que les jumeaux numériques (digital twins) et les mécanismes d'adaptation pilotés par l'IA, qui assurent la surveillance en temps réel, la détection de pannes et la prise de décision automatisée. L'enjeu central identifié par les auteurs est la vérifiabilité des comportements adaptatifs sous incertitude, un problème ouvert qui conditionne directement l'adoption industrielle. Les robots capables d'apprendre et de se reconfigurer en production posent en effet des questions radicalement différentes de celles que traitent les standards de sécurité fonctionnelle classiques comme l'IEC 61508 ou l'ISO 26262. L'article cible notamment la difficulté à équilibrer trois contraintes contradictoires : adaptabilité, performance et sécurité. Il propose d'intégrer des frameworks formels comme MAPE-K (Monitor, Analyze, Plan, Execute, Knowledge), boucle de contrôle réflexif issue de l'autonomic computing d'IBM, et sa variante étendue MAPLE-K, comme socles architecturaux unifiants pour l'ingénierie de ces systèmes. Ce travail s'inscrit dans une dynamique académique qui s'accélère depuis l'émergence des VLA (Vision-Language-Action models) et des approches sim-to-real à grande échelle. Des communautés concurrentes, notamment autour de ROS 2 Lifecycle, des architectures behavior trees, et du model-driven engineering for robotics (MDE4R), explorent des directions parallèles. Les auteurs formalisent une feuille de route vers 2030, visant des systèmes robotiques dits trustworthy, capables d'opérer sans supervision humaine continue dans des environnements industriels réels. Il convient de situer ce papier pour ce qu'il est : un agenda de recherche, pas un produit livré ni un déploiement annoncé. Il cartographie les problèmes à résoudre, pas les solutions disponibles.

UELes questions de vérifiabilité des comportements adaptatifs sous incertitude sont indirectement pertinentes pour les industries européennes soumises aux normes IEC 61508 et à l'AI Act, mais aucun acteur français ou européen n'est impliqué dans ce travail.

RecherchePaper
1 source
Emballage dans des contenants partiellement remplis par contact
912arXiv cs.RO 

Emballage dans des contenants partiellement remplis par contact

Une équipe de chercheurs publie sur arXiv (référence 2602.12095, version 3, première soumission en février 2026) une approche de bin-packing robotique capable de placer des objets dans des conteneurs déjà partiellement remplis, contrairement aux méthodes existantes qui supposent des conteneurs vides. L'algorithme repose sur trois composants couplés: un optimiseur de trajectoire multi-objets basé sur les contacts, intégré dans un contrôleur prédictif (MPC); un système de perception physiquement informé qui estime les poses des objets même en présence d'occlusions inévitables; et un module de suggestion de positions d'empilement physiquement réalisables. La contribution centrale est l'exploitation délibérée des interactions de contact avec les objets déjà en place pour créer de l'espace libre et permettre l'insertion de nouveaux items, sans recourir à la stratégie collision-free qui prévaut dans la littérature. Dans les entrepôts réels, les bacs ne sont presque jamais vides: ils circulent entre zones de tri, postes de préparation et quais d'expédition, accumulant des configurations sous-optimales au fil des déplacements. Les approches sans contact dominantes échouent ou produisent des taux de remplissage médiocres face à ces conditions, creusant un écart persistant entre la recherche en laboratoire et les contraintes opérationnelles. Ce travail propose un changement de paradigme: traiter les contacts comme un levier d'organisation spatiale plutôt que comme un obstacle à éviter. Pour un intégrateur ou un opérateur logistique, l'impact potentiel est direct: densité de remplissage accrue, moins de passages en reprise manuelle, réduction des coûts de transport et de surface de stockage. L'absence de métriques quantitatives dans l'abstract (taux de succès, temps de cycle, payload) empêche toutefois d'évaluer les performances réelles à ce stade. Le bin-packing robotique reste un problème ouvert malgré les investissements d'Amazon Robotics, Ocado et Covariant, et la montée de spécialistes comme Nimble Robotics. Côté européen, Exotec (AMR de stockage, Lille) et Enchanted Tools évoluent dans des espaces adjacents sans cibler encore ce niveau de manipulation dense en conteneur partiellement rempli. Ce travail est un preprint en version 3, sans déploiement ni partenariat industriel annoncé: il s'agit d'une contribution académique, pas d'un produit expédié. Si les performances se confirment hors laboratoire, cette approche orientée contact pourrait s'intégrer à la prochaine génération de cellules de picking-packing autonomes, où la robustesse face au désordre constitue le vrai différenciateur commercial.

UEImpact indirect : si les performances se confirment hors laboratoire, des acteurs logistiques européens comme Exotec pourraient intégrer cette approche orientée contact dans leurs cellules de picking-packing, réduisant la dépendance aux reprises manuelles dans les entrepôts.

RecherchePaper
1 source
Encodage de la prévisibilité et de la lisibilité pour une politique de diffusion conditionnée par le style
913arXiv cs.RO 

Encodage de la prévisibilité et de la lisibilité pour une politique de diffusion conditionnée par le style

Des chercheurs ont publié sur arXiv (preprint 2503.16368, mis à jour en mai 2026) un framework baptisé Style-Conditioned Diffusion Policy (SCDP), conçu pour résoudre un compromis fondamental en collaboration humain-robot : la lisibilité des mouvements face à leur efficacité temporelle et énergétique. Le système s'appuie sur une politique de diffusion pré-entraînée qu'il enrichit via un pipeline post-entraînement léger, ajoutant un encodeur de scène et un prédicteur de conditionnement sans modifier les poids du modèle de base. À l'inférence, un module de détection d'ambiguïté détermine automatiquement si l'objectif du robot est déjà évident pour un observateur humain ; si oui, la trajectoire optimale est maintenue ; sinon, le système bascule vers des mouvements plus expressifs et intentionnels. Les évaluations portent sur des tâches de manipulation et de navigation. Ce travail adresse un point de friction concret dans le déploiement industriel des bras collaboratifs et des robots mobiles : un robot trop optimal génère des trajectoires difficiles à anticiper pour un opérateur humain, augmentant le risque d'accident et la charge cognitive. À l'inverse, rendre tous les mouvements expressifs coûte du temps de cycle et de l'énergie, ressources critiques en production. SCDP propose un arbitrage automatique et contextuel, ce qui le distingue des approches à style fixe. Le fait que le framework ne nécessite pas de réentraîner la politique de base est l'argument technique le plus fort : cela ouvre la voie à une adaptation post-déploiement sur des modèles existants, un avantage réel pour les intégrateurs qui ne peuvent pas se permettre des cycles de réentraînement complets. Les Diffusion Policies se sont imposées depuis 2023 comme architecture de référence pour l'imitation de comportements complexes, notamment via les travaux de Chi et al. (Columbia/MIT) et leur intégration dans des systèmes comme pi0 de Physical Intelligence. SCDP s'inscrit dans une vague de recherches visant à rendre ces politiques modulables sans réentraînement, une direction également explorée par des approches de guidance conditionnel et d'adaptateurs de type LoRA appliqués à la robotique. Côté lisibilité robot, les travaux sur la motion legibility remontent aux équipes de Dragan et Srinivasa (Carnegie Mellon, 2013), mais leur intégration dans des politiques génératives modernes reste peu exploitée. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans le preprint ; il s'agit d'une contribution académique dont la robustesse hors conditions contrôlées reste à démontrer.

RecherchePaper
1 source
Sûreté par invariance, vivacité par raffinement : contrats hétérogènes pour la co-conception du contrôle multicouche
914arXiv cs.RO 

Sûreté par invariance, vivacité par raffinement : contrats hétérogènes pour la co-conception du contrôle multicouche

Des chercheurs présentent, dans un preprint arXiv déposé en mai 2026 (arXiv:2605.04222), un cadre formel pour la co-conception d'architectures de contrôle en couches (LCA). L'article identifie trois lacunes persistantes dans la littérature sur les LCA : l'absence de langage de spécification unifié entre la planification discrète et l'exécution continue, l'absence de garanties formelles lors de l'interconnexion de sous-systèmes opérant à des échelles de temps hétérogènes, et l'absence de séparation compositionnelle entre les couches due au recours à des lois de filtrage d'entrée naïves. Pour y répondre, les auteurs importent la décomposition sécurité-vivacité dans un cadre assume-guarantee hétérogène : la sécurité est garantie par invariance à la couche temps-continu, tandis que la vivacité est assurée par raffinement à la couche temps-discret. La coordination inter-couches est formalisée via des conditions de raffinement vertical et de compatibilité temporelle. Le framework est instancié avec une architecture concrète combinant un planificateur MPC (Model Predictive Control), un contrôleur bas niveau à stabilisation entrée-état (ISS), et un pont de type reference governor, puis validé sur un système hybride de stockage d'énergie (HESS) composé d'une batterie et d'un supercondensateur. L'apport principal est de nature théorique mais avec des implications pratiques directes pour les systèmes autonomes embarqués. En offrant des garanties formelles compositionnelles, le framework permet aux ingénieurs de concevoir chaque couche indépendamment tout en conservant des propriétés de sécurité bout-en-bout, ce qui réduit la complexité de vérification dans les systèmes à contraintes temps-réel mixtes. Le recours au reference governor comme pont entre MPC et contrôleur bas niveau est une contribution notable : il préserve les contraintes de sécurité sans saturation abrupte des actionneurs, un problème classique dans les architectures hiérarchiques industrielles. Ce travail s'inscrit dans un courant actif qui cherche à réconcilier les méthodes formelles issues du génie logiciel (contrats assume-guarantee, logique temporelle) avec la théorie du contrôle non linéaire (CBF, ISS, MPC). Les approches concurrentes incluent les QP basés sur les Control Barrier Functions (CBF-CLF) et les architectures de sécurité par filtrage de type "safety filter". La validation sur HESS, plutôt que sur un système robotique, suggère un positionnement orienté gestion d'énergie embarquée et systèmes cyber-physiques industriels ; une extension aux robots mobiles ou aux bras manipulateurs, domaines où la coexistence sécurité-vivacité est critique, constituerait une suite naturelle.

RecherchePaper
1 source
Effets inattendus de la randomisation de domaine sensible au risque pour la commande prédictive par échantillonnage à contacts multiples
915arXiv cs.RO 

Effets inattendus de la randomisation de domaine sensible au risque pour la commande prédictive par échantillonnage à contacts multiples

Des chercheurs ont publié en mai 2026 une étude préliminaire (arXiv:2605.03290) sur les effets de la randomisation de domaine sensible au risque appliquée au contrôle prédictif par échantillonnage (SPC) dans des tâches à contacts physiques denses. La randomisation de domaine (DR) consiste à entraîner un planificateur sur des variantes aléatoires des paramètres physiques, masse, friction, rigidité, pour le rendre robuste aux erreurs de modélisation. Très utilisée en apprentissage par renforcement, elle restait quasiment inexploriée dans le SPC, où la qualité des trajectoires simulées est particulièrement sensible à l'incertitude. Les auteurs comparent trois stratégies d'agrégation de rollouts sous instances de modèles randomisés : moyenne, optimiste (meilleur cas) et pessimiste (pire cas), sur la tâche Push-T, un benchmark de manipulation où un robot pousse un objet en T vers une pose cible. Les résultats révèlent un effet inattendu : la DR ne se contente pas d'améliorer la robustesse aux erreurs de modèle, elle modifie structurellement le paysage de coût perçu par l'optimiseur d'échantillonnage. Selon le profil de risque retenu, le bassin d'attraction autour des actions produisant des contacts physiques est reconfiguré différemment, ce qui influe directement sur la propension de l'optimiseur à explorer ou à éviter les configurations de contact. Pour des applications industrielles, assemblage, manipulation fine ou tri, où les contacts sont inévitables, ce couplage entre incertitude de modèle et stratégie de risque est critique : un mauvais calibrage peut rendre le SPC soit trop conservateur, soit instable face aux contacts non planifiés. La DR a été systématisée dans les simulateurs physiques comme Isaac Sim de NVIDIA et popularisée par les travaux d'OpenAI sur la manipulation dextre (projet Dactyl, 2019). Le SPC, notamment via l'algorithme MPPI (Model Predictive Path Integral), connaît un regain d'intérêt pour la robotique temps réel, en locomotion et manipulation. Cette étude constitue un premier jalon formel à l'intersection des deux approches, jusqu'ici traitées séparément. Elle s'inscrit dans un contexte plus large où les modèles VLA (Vision-Language-Action) et les approches sim-to-real de Google DeepMind ou Physical Intelligence (Pi-0) cherchent à réduire l'écart entre simulation et réalité. Les auteurs ne publient que des résultats initiaux sur une tâche simple et ne proposent pas encore de généralisation ni de calendrier applicatif, ce qui limite la portée immédiate mais ouvre un axe de recherche prometteur pour le contrôle robuste aux contacts.

RecherchePaper
1 source
Commutation de raideur par multistabilité
916arXiv cs.RO 

Commutation de raideur par multistabilité

Des chercheurs ont présenté un métamatériau mécanique multistable capable de moduler sa rigidité par commutation discrète entre deux configurations stables. Publiés sur arXiv (réf. 2510.09511, version mise à jour en 2025), ces travaux décrivent une structure monolithique, réalisable par impression 3D, dont la rigidité effective en cisaillement peut être basculée d'un état à l'autre sans actionneur externe. Le mécanisme repose sur la rotation que les poutres de support transmettent à une poutre incurvée centrale, laquelle régit l'équilibre entre déformation en flexion et déformation axiale. En faisant varier l'élancement des poutres de support ou en intégrant des charnières localisées qui modulent ce transfert de rotation, les concepteurs peuvent ajuster le rapport de rigidité entre les deux états stables. Des prototypes imprimés en 3D ont validé les prédictions numériques et confirmé la répétabilité du basculement sur plusieurs géométries. L'équipe démontre également un embrayage souple monolithique exploitant cet effet pour obtenir une modulation par paliers de la rigidité. L'intérêt de cette approche tient à son architecture sans pièce discrète. Les solutions actuelles de rigidité variable (actionneurs à rigidité variable de type VSA, verrouillage par particules en pression, alliages à mémoire de forme) impliquent des sous-systèmes mécaniques ou électroniques qui alourdissent les robots, complexifient la commande et réduisent la fiabilité. Encoder la variation de rigidité directement dans la géométrie de la structure ouvre la voie à des préhenseurs souples ou des membres prosthétiques capables de passer d'un mode conforme à un mode rigide via une simple sollicitation mécanique. Le basculement est discret, ce qui garantit des états prévisibles et reproductibles, un atout direct pour la conception de contrôleurs. L'embrayage souple monolithique constitue une preuve de concept concrète, bien que les performances en cycle répété et sous charge réelle ne soient pas encore publiées dans ce préprint. Le domaine des métamatériaux mécaniques a connu une accélération notable ces cinq dernières années, portée par l'accessibilité croissante de l'impression 3D multi-matériaux. Les approches concurrentes incluent les structures auxétiques à rigidité variable, les métamatériaux inspirés de l'origami et les structures bistables à base d'élastomères. Ces travaux s'inscrivent dans un courant visant à remonter la complexité fonctionnelle depuis les actionneurs vers la structure elle-même, réduisant ainsi la chaîne de composants nécessaire à l'adaptation mécanique. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans la publication; les suites naturelles concernent l'intégration dans des grippers de robotique souple et des structures intelligentes adaptatives pour le bâtiment ou les dispositifs médicaux.

RecherchePaper
1 source
Faut-il vraiment réinitialiser immédiatement ? Repenser la gestion des collisions pour une navigation robotique efficace
917arXiv cs.RO 

Faut-il vraiment réinitialiser immédiatement ? Repenser la gestion des collisions pour une navigation robotique efficace

Une équipe de chercheurs propose, dans un préprint déposé sur arXiv le 2 mai 2026 (référence 2605.02192), un nouveau cadre d'entraînement pour la navigation robotique par apprentissage par renforcement profond (DRL), baptisé Multi-Collision reset Budget (MCB). La convention actuelle dans la majorité des frameworks DRL est la suivante : toute collision déclenche immédiatement un reset global de l'épisode et est comptabilisée comme un échec total de la tâche. MCB rompt avec cette logique en découplant la terminaison locale sur collision du reset global de l'environnement, permettant à l'agent d'effectuer plusieurs tentatives au sein d'un même épisode sur une configuration d'obstacles difficile, jusqu'à épuisement d'un budget de collisions défini. Les expériences ont été conduites sur plusieurs plateformes robotiques simulées et réelles, et les auteurs rapportent des gains de taux de succès et d'efficacité de navigation supérieurs aux baselines à collision unique, avec un budget de collisions réduit produisant les meilleurs résultats. L'enjeu est directement lié à une limite connue du DRL appliqué à la navigation en environnements denses : en pénalisant durement chaque collision dès les premières étapes d'entraînement, les agents évitent les configurations complexes plutôt que de les apprendre, ce qui ralentit la convergence. MCB autorise une exploration plus agressive des zones difficiles sans pour autant sacrifier la sécurité en déploiement, où la politique apprise conserve un comportement zéro-collision. Cela adresse indirectement le "sim-to-real gap" en exposant l'agent à des scénarios d'entassement d'obstacles que les resets prématurés rendaient statistiquement rares durant la phase d'exploration précoce. L'approche n'est toutefois présentée que dans un contexte de résultats expérimentaux préliminaires, sans benchmark comparatif exhaustif sur des datasets standardisés. Cette publication s'inscrit dans un débat plus large sur la conception des fonctions de récompense et des conditions de terminaison en DRL pour la navigation mobile, un domaine où des travaux comme ceux de Berkeley (sur la navigation sociale) ou les approches curriculum learning d'OpenAI ont montré l'importance des dynamiques d'exploration en début d'entraînement. Côté robotique industrielle, les AMR (Autonomous Mobile Robots) de Exotec ou des intégrateurs logistiques européens utilisent majoritairement des planificateurs classiques, mais la pression vers des politiques apprises pour des environnements non-structurés rend ce type de recherche pertinent à moyen terme. La prochaine étape logique serait une validation sur des plateformes de référence (TurtleBot, Spot, ou robots humanoïdes à roues) et une comparaison directe avec des méthodes curriculum existantes.

UEImpact indirect à moyen terme : si l'approche MCB se confirme sur des benchmarks standardisés, des acteurs comme Exotec ou des intégrateurs AMR européens opérant en environnements non-structurés pourraient en tirer parti pour passer à des politiques de navigation apprises.

RecherchePaper
1 source
Planification heuristique à base de LLM pour la navigation robotique dans des environnements dynamiques, intégrant la conscience sémantique du risque
918arXiv cs.RO 

Planification heuristique à base de LLM pour la navigation robotique dans des environnements dynamiques, intégrant la conscience sémantique du risque

Des chercheurs ont publié début mai 2026, via un preprint arXiv (2605.02862), un planificateur de navigation robotique baptisé SRAH (Semantic Risk-Aware Heuristic), conçu pour intégrer des principes de raisonnement issus des grands modèles de langage (LLM) dans le cadre classique de recherche de chemin A. L'algorithme encode des fonctions de coût sémantiques qui pénalisent les zones géométriquement encombrées ou identifiées comme à risque élevé, et déclenche un replanification en boucle fermée dès qu'un obstacle dynamique est détecté. Les auteurs l'ont évalué sur 200 essais randomisés dans un environnement grille 15x15 cases, avec 20% de densité d'obstacles statiques et des obstacles dynamiques stochastiques. SRAH atteint un taux de succès de 62,0%, contre 56,5% pour BFS avec replanification (soit +9,7% d'amélioration relative) et 4,0% pour une heuristique Greedy sans replanification. Une étude d'ablation sur la densité d'obstacles confirme que le façonnage sémantique des coûts améliore la navigation sur des environnements de difficulté variable. Ce travail s'inscrit dans un courant de recherche qui cherche à exploiter la capacité des LLM à encoder du raisonnement contextuel sans les déployer en inférence temps réel, ce qui réduirait la latence et les coûts de calcul embarqués. L'idée centrale, injecter une représentation sémantique du risque dans la fonction heuristique d'A, est pertinente pour les développeurs d'AMR (robots mobiles autonomes) industriels confrontés à des environnements semi-structurés changeants. Cela dit, les résultats doivent être nuancés : un taux de succès de 62% dans une grille 15x15 reste modeste pour une tâche de navigation, et la comparaison avec un Greedy sans replanification est méthodologiquement inégale. La valeur démontrée reste celle de principe, pas de déploiement à l'échelle. La navigation en environnement dynamique est un problème central depuis les travaux fondateurs sur A (Hart, Nilsson, Raphael, 1968) et les variantes D et D*-Lite des années 1990-2000. L'émergence des LLM a relancé l'intérêt pour des heuristiques fondées sur la sémantique plutôt que sur la pure géométrie, une piste explorée par des équipes comme celles de Stanford (SayCan, 2022) ou de Google DeepMind avec RT-2. Sur le segment de la navigation mobile, des acteurs comme Boston Dynamics, MiR ou Exotec (France) intègrent déjà des couches de replanification dynamique dans leurs flottes d'AMR industriels. Ce preprint n'annonce pas de produit ni de déploiement : c'est une contribution algorithmique à valider sur des benchmarks plus réalistes (ROS 2, Gazebo, environnements 3D) avant tout transfert industriel.

UECe preprint pourrait à terme informer les développeurs d'AMR industriels européens sur les heuristiques sémantiques LLM, mais les résultats restent trop préliminaires et le benchmark trop limité (grille 15x15) pour un transfert industriel immédiat.

RecherchePaper
1 source
OmniRobotHome : une plateforme multi-caméras pour l'interaction humain-robot en temps réel
919arXiv cs.RO 

OmniRobotHome : une plateforme multi-caméras pour l'interaction humain-robot en temps réel

Des chercheurs ont publié en avril 2026 sur arXiv (arXiv:2604.28197) les spécifications d'OmniRobotHome, une plateforme expérimentale résidentielle instrumentée avec 48 caméras RGB synchronisées au niveau matériel pour le suivi 3D temps réel, sans marqueurs, de plusieurs humains et objets simultanément. Le système est couplé à deux bras manipulateurs Franka, qui réagissent à l'état de la scène en temps réel dans un référentiel spatial partagé. La plateforme cible ce que les auteurs nomment la collaboration "multiadique" : plusieurs humains et robots qui partagent un même espace de travail domestique, agissent en parallèle sur des sous-tâches imbriquées avec des contraintes spatiales et temporelles serrées. Contrairement aux setups dyadiques classiques (un humain, un robot, une tâche), OmniRobotHome enregistre en continu pour constituer une mémoire comportementale long-horizon à partir des trajectoires accumulées. Le verrou technique que ce travail prétend lever est l'occlusion persistante : en environnement résidentiel réel, les interactions rapprochées entre humains, robots et objets génèrent des changements d'état rapides et des zones aveugles qui rendent le tracking 3D fiable en temps réel extrêmement difficile. Aucune plateforme existante ne combinait, selon les auteurs, la robustesse aux occlusions à l'échelle d'une pièce entière avec une actuation multi-robots coordonnée. Les deux problèmes ciblés, sécurité en environnement partagé et assistance robotique anticipatoire, montrent des gains mesurables grâce à la perception temps réel et à la mémoire comportementale accumulée, bien que les chiffres précis (taux de collision évités, latence, précision du suivi) ne soient pas détaillés dans l'abstract publié. Ce travail s'inscrit dans une tendance académique vers les plateformes de recherche domestique à grande échelle, aux côtés d'initiatives comme TidyBot (Stanford), HomeRobot (Meta/CMU) ou RoboCasa (UT Austin). L'utilisation de bras Franka, standard de facto en manipulation robotique, facilite la réplication dans d'autres laboratoires. En revanche, la nature preprint de la publication (pas encore soumise à évaluation par les pairs) et l'absence de métriques quantitatives publiées invitent à la prudence avant toute interprétation comme validation de terrain. La prochaine étape déterminante sera l'ouverture éventuelle du dataset ou du code : c'est ce qui distinguerait OmniRobotHome comme infrastructure de référence pour la communauté d'une contribution de laboratoire isolée.

RecherchePaper
1 source
IA incarnée et création artistique : Alter-Art, un robot avatar pour explorer l'art
920arXiv cs.RO 

IA incarnée et création artistique : Alter-Art, un robot avatar pour explorer l'art

Des chercheurs ont publié sur arXiv (arXiv:2604.26473) un travail exploratoire autour du paradigme qu'ils nomment "Alter-Art" : permettre à un artiste humain d'habiter un corps robotique, baptisé Alter-Ego, pour créer dans le monde physique. Le système repose sur une téléopération immersive combinée à une actuation dite "compliant" (articulations à compliance variable, capables d'absorber les forces de contact sans rigidité excessive), offrant un retour sensoriel en première personne. Trois domaines artistiques ont été testés : la danse, le théâtre (aux côtés d'acteurs humains en chair et en os) et la peinture sur toile. L'article ne communique pas de spécifications hardware précises, nombre de degrés de liberté, payload, latence de la boucle de téléopération, ce qui limite l'évaluation externe des performances réelles du système. L'intérêt de ce travail pour la communauté robotique ne réside pas tant dans les specs techniques que dans le cadre conceptuel qu'il propose : l'embodiment comme principe de design central, distinct à la fois du robot autonome et du robot collaboratif. Les retours qualitatifs des artistes indiquent qu'un sentiment de présence dans le corps robotique se développe rapidement, et que les contraintes physiques du robot, cinématique limitée, inertie, précision motrice différente, influencent activement le processus créatif plutôt que de simplement le contraindre. Pour les intégrateurs et chercheurs en téléprésence, cela valide l'idée que la compliance mécanique n'est pas qu'un paramètre de sécurité mais un vecteur d'expressivité. L'accessibilité artistique pour des personnes à mobilité réduite est également mentionnée comme application concrète. Ce travail s'inscrit dans une tendance plus large autour de la téléprésence incarnée (embodied telepresence), un champ où des groupes comme ceux travaillant sur les interfaces haptiques (Shadow Robotics, Kinova) ou les robots de téléprésence sociale croisent désormais les arts vivants. En France, des acteurs comme Enchanted Tools (Miroki) et Pollen Robotics (Reachy) explorent des territoires adjacents, interaction sociale et manipulation expressive. L'équipe ne précise pas d'étapes de déploiement ni de partenariats industriels annoncés ; l'article reste à ce stade une contribution académique exploratoire, sans prototype commercialisé ni timeline de mise sur le marché.

UELes résultats sur la compliance mécanique comme vecteur d'expressivité pourraient nourrir la réflexion de design des acteurs français comme Enchanted Tools (Miroki) et Pollen Robotics (Reachy), actifs dans l'interaction sociale et la manipulation expressive, sans impact opérationnel immédiat.

RecherchePaper
1 source
Une couche d'interaction mécanique virtuelle permet des transferts d'objets humain-robot fiables
921arXiv cs.RO 

Une couche d'interaction mécanique virtuelle permet des transferts d'objets humain-robot fiables

Des chercheurs ont publié sur arXiv (preprint 2511.19543v2) une approche visant à rendre les transferts d'objets entre humains et robots plus robustes face aux imprévus. Le coeur de la contribution est une couche d'interaction basée sur le Virtual Model Control (VMC), une technique de contrôle qui simule des ressorts et amortisseurs virtuels autour de l'effecteur pour absorber les variations dynamiques de pose de l'objet lors du passage de main. En complément, les auteurs intègrent la réalité augmentée (AR) pour établir une communication bidirectionnelle en temps réel entre l'opérateur humain et le robot, permettant à chaque partie d'anticiper l'intention de l'autre. Les performances du contrôleur ont été évaluées sur une série d'expériences couvrant différentes sources d'incertitude, puis validées par une étude utilisateur impliquant 16 participants testant plusieurs profils de contrôle et visualisations AR. La problématique du transfert d'objet humain-robot (H2R handover) est un verrou bien identifié en robotique collaborative : une légère désorientation de la pièce, un geste hésitant, et le robot échoue ou force l'objet, ce qui rend ce scénario incompatible avec un déploiement industriel fiable. L'approche VMC est intéressante parce qu'elle ne dépend pas d'une trajectoire rigide pré-planifiée mais s'adapte en continu, ce qui réduit la sensibilité au sim-to-real gap souvent fatal aux méthodes basées sur l'apprentissage. L'ajout de la boucle AR pour synchroniser les intentions est également prometteur pour les environnements d'assemblage où la communication verbale est difficile. L'étude utilisateur montre une préférence générale pour l'approche proposée, même si 16 participants reste un panel modeste pour généraliser les conclusions. Le problème H2R est un domaine actif depuis plusieurs années, avec des approches concurrentes allant du contrôle en impédance classique aux méthodes VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou les travaux sur GR00T N2 de NVIDIA. Le VMC s'inscrit dans la tradition du contrôle à base de modèle, plus explicable mais moins généraliste que les approches end-to-end. L'article est à ce stade un preprint sans affiliation industrielle identifiée ni déploiement annoncé, ce qui le place clairement dans la catégorie recherche fondamentale. Les prochaines étapes probables incluent une soumission en conférence (ICRA ou IROS) et des tests sur une plus large cohorte ou sur un robot commercial tel qu'un UR ou Franka.

RecherchePaper
1 source
Génération de mouvement réactif par fonctions de potentiel neuronal à phase variable
922arXiv cs.RO 

Génération de mouvement réactif par fonctions de potentiel neuronal à phase variable

Des chercheurs présentent PNPF (Phase-varying Neural Potential Functions), un nouveau cadre d'apprentissage par démonstration (LfD) pour la génération de mouvements robotiques réactifs, publié sur arXiv (2504.26450v1) fin avril 2026. L'approche conditionne une fonction potentielle neuronale sur une variable de phase estimée directement depuis la progression d'état du robot, et non depuis une entrée temporelle en boucle ouverte. Le système génère des champs de vecteurs locaux assurant un contrôle stable et réactif, y compris pour des trajectoires avec intersections, des tâches périodiques, et des mouvements complets en 6D (position et orientation). Des validations en manipulation robotique en temps réel sous perturbations externes sont rapportées, avec des performances supérieures aux méthodes de référence sur les trajectoires à intersections. L'enjeu central est la robustesse face aux perturbations dans des tâches non triviales. Les systèmes dynamiques du premier ordre échouent dès que la trajectoire se croise, car un même état de position peut correspondre à deux directions de mouvement différentes, comme lors du tracé d'un "8". Les approches du second ordre intègrent la vitesse pour lever cette ambiguïté, mais deviennent fragiles aux perturbations près des intersections, et peuvent échouer lorsque des paires position-vitesse quasi-identiques correspondent à des mouvements futurs distincts. Les méthodes à phase temporelle en boucle ouverte, elles, ne permettent pas de récupérer après une perturbation. PNPF contourne ce triple compromis : la variable de phase, inférée depuis la progression observée de l'état, donne au robot un ancrage dans la tâche sans dépendre d'une horloge externe, ce qui est critique pour des environnements industriels réels où vibrations, interventions humaines et aléas de convoyeur perturbent régulièrement les trajectoires planifiées. Les méthodes LfD basées sur des systèmes dynamiques ont émergé comme alternative légère aux planificateurs de trajectoire classiques, apprenant des politiques stables depuis quelques démonstrations seulement (SEDS, DMP, ProDMP). PNPF s'inscrit dans cette lignée tout en ciblant le maillon faible commun à ces approches : la gestion des revisites d'état. Les concurrents directs incluent les Dynamical Movement Primitives (DMP), les réseaux neuronaux à fonctions potentielles sans phase, et les récentes approches de contrôle par imitation basées sur des transformeurs. La publication est arxiv uniquement, sans code ni démo publique annoncée à ce stade. Les suites logiques seraient une validation sur bras industriel standard (Franka, UR, KUKA) et une intégration dans des pipelines d'apprentissage par imitation pour la manipulation fine, notamment pour des tâches d'assemblage où les trajectoires réelles ne sont jamais parfaitement répétables.

RecherchePaper
1 source
Optimisation bi-niveaux pour la planification du mouvement et des contacts dans les robots à jambes assistés par corde
923arXiv cs.RO 

Optimisation bi-niveaux pour la planification du mouvement et des contacts dans les robots à jambes assistés par corde

Des chercheurs ont publié sur arXiv (2604.26910) un framework de planification pour robots à pattes assistés par câble, capables de grimper des surfaces verticales. Le système repose sur une optimisation bi-niveau qui résout un problème mixte entier-continu : au niveau supérieur, la méthode Cross-Entropy sélectionne les régions de terrain viables pour l'appui des membres ; au niveau inférieur, une optimisation non linéaire à gradient calcule les mouvements dynamiquement réalisables, en optimisant simultanément les tensions du câble, les forces exercées par les pattes, et la localisation précise des points de contact. L'approche est validée sur une plateforme expérimentale inédite baptisée ALPINE, testée sur plusieurs configurations de terrain difficiles. L'intérêt principal réside dans la décomposition du problème de planification de contact sur surfaces verticales, longtemps considéré comme computationnellement intractable pour les robots à pattes. Le schéma bi-niveau sépare la sélection discrète des zones d'appui de l'optimisation continue des forces et trajectoires, rendant le problème soluble en temps raisonnable. Pour les concepteurs de robots d'inspection d'infrastructure, de maintenance en hauteur ou de recherche en milieu confiné vertical, cette architecture offre un cadre de planification là où les AMR à roues sont inopérants. La robotique grimpante reste un domaine de niche en progression. Les approches antérieures reposaient principalement sur des ventouses, des griffes ou des systèmes d'escalade fortement contraints géométriquement. L'hybridation câble-pattes ouvre une voie potentiellement plus adaptable aux surfaces irrégulières. ETH Zurich via ANYbotics, le MIT et Boston Dynamics ont exploré la locomotion en terrain difficile, mais sans assistance câble active intégrée dans la boucle de planification. ALPINE constitue donc une contribution expérimentale distincte, même si le papier reste un preprint sans validation industrielle ni déploiement annoncé.

RecherchePaper
1 source
Navigation sociale à long terme pour l'assistance extérieure centrée sur l'humain
924arXiv cs.RO 

Navigation sociale à long terme pour l'assistance extérieure centrée sur l'humain

Des chercheurs ont publié sur arXiv (référence 2604.26839) un cadre de navigation sociale en extérieur baptisé "Walk with Me", conçu pour assister des humains dans des environnements ouverts à partir d'instructions en langage naturel. Le système fonctionne sans carte préétablie (map-free) : il s'appuie uniquement sur le GPS et des points d'intérêt légers issus d'une API cartographique publique pour identifier les destinations sémantiques et proposer des waypoints. L'architecture est hiérarchique à deux niveaux : un modèle vision-langage (VLM) de haut niveau traduit les intentions abstraites en séquences de waypoints, tandis qu'un modèle vision-langage-action (VLA) de bas niveau exécute la navigation au sol en temps réel. Lorsque des situations complexes surgissent, comme des traversées bondées ou des zones à risque, le système bascule automatiquement vers le raisonnement de sécurité du VLM, pouvant imposer un comportement "stop-and-wait" explicite. L'apport principal est l'élimination de la dépendance aux cartes HD préconstruites, qui représentent un coût d'infrastructure significatif pour tout déploiement de robots d'assistance en milieu urbain ou semi-public. Les approches classiques basées sur l'apprentissage restent majoritairement confinées aux intérieurs et aux trajets courts ; "Walk with Me" vise explicitement à combler ce fossé pour des scénarios extérieurs à longue portée. Le mécanisme de routage adaptatif, qui distingue les segments routiniers délégués au VLA des situations complexes renvoyées au VLM, constitue une piste crédible pour économiser les ressources de calcul tout en maintenant la conformité sociale. À noter cependant : le papier ne publie pas de métriques quantifiées sur des scénarios réels, ce qui rend difficile l'évaluation du reality gap et de la robustesse hors laboratoire. Cette recherche s'inscrit dans une effervescence autour des VLA pour la navigation sociale, aux côtés de travaux comme NaviLLM ou les systèmes piétons de Boston Dynamics Research. La navigation extérieure à longue portée reste un verrou non résolu pour les robots humanoïdes commerciaux actuels, Figure AI (Figure 03), Agility Robotics (Digit), Sanctuary AI, qui opèrent encore majoritairement dans des environnements contrôlés et cartographiés. En Europe, Enchanted Tools et Wandercraft travaillent sur des assistants mobiles, mais dans des contextes d'intérieur structuré. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans cette publication arXiv, la classant fermement dans la catégorie recherche académique. Les prochaines étapes attendues incluent une validation sur des benchmarks standardisés de navigation sociale et des tests urbains documentés en conditions non contrôlées.

RechercheOpinion
1 source
Liaisons de jambes robotiques extensibles et rétractables dynamiquement pour l'exécution de tâches multiples en recherche et sauvetage
925arXiv cs.RO 

Liaisons de jambes robotiques extensibles et rétractables dynamiquement pour l'exécution de tâches multiples en recherche et sauvetage

Des chercheurs ont publié sur arXiv (identifiant 2511.10816, révision 3, avril 2026) les travaux autour d'un nouveau concept de jambe robotique à géométrie variable, baptisé DERRL (Dynamically Extensible and Retractable Robotic Leg Linkage). Le mécanisme repose sur un cinquième bras articulé (five-bar linkage) dont la géométrie peut être reconfigurée à la volée, basculant entre deux modes : une configuration "avantagée en hauteur" pour franchir rapidement des obstacles, et une configuration "avantagée en force" pour exercer des efforts élevés lors des phases d'extraction de victimes. Les expériences sur banc de test ont porté sur trois métriques principales : la longueur de foulée, l'amplitude de force en sortie, et la stabilité dynamique selon les différentes géométries de bras. Le point critique ici est que la robotique SAR (Search and Rescue) souffre d'un problème structurel non résolu : les robots à pattes excellent dans la traversée de terrain accidenté mais peinent à générer des forces d'extraction contrôlées, là où les transmissions à roues font l'inverse. Aucune plateforme existante ne réunit aujourd'hui ces deux capacités de façon satisfaisante. Ce travail propose une voie mécanique plutôt qu'algorithmique pour combler ce fossé, ce qui est notable : la transformation entre modes s'effectue par reconfiguration géométrique, sans changer l'actionneur. C'est un signal intéressant pour les intégrateurs industriels, car cela suggère une robustesse matérielle supérieure aux approches purement contrôle-logiciel. La recherche en robotique SAR connaît une dynamique soutenue depuis les années 2010, portée par des catastrophes comme Fukushima ou les séismes au Maroc et en Turquie. Des plateformes comme le Spot de Boston Dynamics ou l'ANYmal de ANYbotics (ETH Zürich) sont ponctuellement engagées dans ce contexte, mais sans capacité d'extraction lourde intégrée. Ce travail est purement académique à ce stade : aucun prototype complet, aucune démonstration en environnement réel, aucun partenaire industriel annoncé. La prochaine étape logique serait une intégration sur châssis quadrupède et un test en environnement dégradé simulé, avant toute validation opérationnelle.

RecherchePaper
1 source
LLM-Flax : planification robotique généralisable par approches neuro-symboliques et grands modèles de langage
926arXiv cs.RO 

LLM-Flax : planification robotique généralisable par approches neuro-symboliques et grands modèles de langage

Des chercheurs ont publié LLM-Flax (arXiv 2604.26569v1), un framework en trois étapes conçu pour automatiser le déploiement de planificateurs de tâches neuro-symboliques sans expertise manuelle ni données d'entraînement. Le système prend en entrée uniquement un LLM hébergé localement et un fichier PDDL décrivant le domaine : l'étape 1 génère les règles de relaxation par prompting structuré avec auto-correction, l'étape 2 pilote la récupération sur échec via une politique de budget de latence, et l'étape 3 remplace entièrement le réseau GNN par un scoring d'objets zero-shot. Évalué sur le benchmark MazeNamo en grilles 10x10, 12x12 et 15x15 (8 benchmarks au total), LLM-Flax atteint un taux de succès moyen de 0,945 contre 0,828 pour la baseline manuelle, soit un gain de +0,117. Sur la configuration 12x12 Expert, où le planificateur manuel échoue complètement (SR 0,000), LLM-Flax atteint SR 0,733 ; sur 15x15 Hard, il obtient SR 1,000 contre 0,900 pour l'approche de référence. Le principal verrou adressé est le coût de transfert de domaine : adapter un planificateur symbolique à une nouvelle cellule robotique mobilise aujourd'hui des centaines de problèmes d'entraînement et l'intervention d'un expert métier, ce qui rend le déploiement à l'échelle industrielle prohibitif. La politique de budget de latence de l'étape 2, qui réserve explicitement une enveloppe d'appels LLM avant chaque séquence de récupération sur échec, adresse un problème pratique rarement traité dans la littérature : les boucles de fallback infinies qui paralysent les systèmes en production. L'étape 3 démontre la faisabilité du zero-shot avec SR 0,720 sur 12x12 Hard sans aucune donnée d'entraînement, mais bute sur la fenêtre de contexte à grande échelle, que les auteurs identifient eux-mêmes comme le principal défi ouvert. LLM-Flax s'inscrit dans la lignée des travaux combinant PDDL et LLMs pour la robotique, après SayCan (Google, 2022), Code as Policies (Google DeepMind) et ProgPrompt. Cette approche neuro-symbolique reste distinctement différente des architectures VLA end-to-end comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) : elle préserve un module de raisonnement explicite et auditable, ce qui peut constituer un avantage dans les environnements industriels certifiables. Le benchmark MazeNamo demeure un environnement de navigation 2D simplifié, éloigné des scénarios de manipulation réels ; aucun déploiement terrain n'est annoncé à ce stade, et les auteurs indiquent l'extension à des environnements multi-objets complexes comme prochaine étape.

RecherchePaper
1 source
Gouvernance par sonde atomique pour la mise à jour des compétences dans les politiques de robots compositionnels
927arXiv cs.RO 

Gouvernance par sonde atomique pour la mise à jour des compétences dans les politiques de robots compositionnels

Des chercheurs ont publié sur arXiv (preprint 2604.26689) un protocole d'évaluation pour gouverner les mises à jour de compétences dans les politiques robotiques compositionnelles. Le problème concret : les bibliothèques de skills dans les systèmes déployés sont continuellement raffinées par fine-tuning, nouvelles démonstrations ou adaptation de domaine, mais les méthodes de composition existantes (BLADE, SymSkill, Generative Skill Chaining) supposent que la bibliothèque est figée au moment du test et ne caractérisent pas l'impact d'un remplacement de skill sur la composition globale. L'équipe introduit un protocole de swap cross-version par échantillonnage couplé (paired-sampling cross-version swap) sur les tâches de manipulation robosuite. Sur une tâche bimanuelle peg-in-hole, ils documentent un effet de skill dominant : un seul ECM (Elementary Composition Module) atteint 86,7 % de taux de succès atomique tandis que tous les autres restent sous 26,7 %, et la présence ou l'absence de cet ECM dominant dans une composition déplace le taux de succès de la composition jusqu'à +50 points de pourcentage. Ils testent également une tâche de pick où toutes les politiques saturent à 100 %, rendant l'effet indéfini, et couvrent au total 144 décisions de mise à jour de skill sur trois tâches. L'enseignement industriellement pertinent est que les métriques de distance comportementale hors-politique échouent à identifier l'ECM dominant, ce qui élimine le prédicteur bon marché le plus naturel pour un système de gouvernance en production. Pour pallier cela, les auteurs proposent une sonde de qualité atomique (atomic-quality probe) combinée à un Hybrid Selector : sur T6, la sonde atomique seule se situe 23 points sous la revalidation complète (64,6 % vs 87,5 % de correspondance oracle) à coût nul par décision ; le Hybrid Selector avec m=10 ramène cet écart à environ 12 points en mobilisant 46 % du coût d'une revalidation complète. Sur la moyenne inter-tâches des 144 événements, la sonde atomique seule reste à moins de 3 points de la revalidation complète, avec une réserve liée à l'oracle mixte. Pour les intégrateurs qui déploient des robots en production continue, ce résultat signifie qu'une stratégie de revalidation sélective peut préserver l'essentiel de la qualité compositionnelle à moitié coût, sans rejouer l'intégralité du test de composition à chaque mise à jour de skill. Ce travail s'inscrit dans un corpus académique croissant autour de la composition de politiques robotiques, domaine animé notamment par des méthodes comme Generative Skill Chaining et BLADE qui ont posé les bases du typed-composition mais sans mécanisme de gouvernance post-déploiement. Il n'existe à ce stade aucun déploiement industriel annoncé, ni partenariat OEM mentionné dans le preprint : il s'agit d'un résultat de recherche fondamentale évalué uniquement en simulation (robosuite). La portée pratique dépendra de la capacité à transférer ces résultats sur des stacks de policies VLA (Vision-Language-Action) plus récents, comme pi-zero de Physical Intelligence ou GR00T N2 de NVIDIA, qui multiplient précisément les modules compositionnels mis à jour en continu. Les prochaines étapes naturelles seraient une validation sim-to-real et une intégration dans des pipelines de CI/CD pour robots, un problème d'ingénierie encore largement ouvert.

RecherchePaper
1 source
FeudalNav : un framework simple pour la navigation visuelle
928arXiv cs.RO 

FeudalNav : un framework simple pour la navigation visuelle

Des chercheurs ont publié sur arXiv (référence 2602.06974) FeudalNav, un cadre hiérarchique de navigation visuelle pour robots mobiles qui ne requiert ni carte métrique, ni GPS, ni données odométriques en phase d'entraînement ou d'inférence. Le système décompose la prise de décision en plusieurs niveaux : un réseau de sélection de sous-objectifs (waypoints) léger et transférable choisit des points intermédiaires, tandis qu'un module de mémoire dans l'espace latent organise les observations visuelles passées par similarité visuelle, utilisée comme proxy de distance. Ce module de mémoire remplace les représentations topologiques classiques basées sur des graphes, sans dégradation notable des performances. Les résultats sont obtenus dans les environnements simulés Habitat AI, un benchmark standard du domaine, et montrent des scores compétitifs face aux méthodes état de l'art. Les auteurs explorent également une modalité d'navigation interactive : ils quantifient la quantité minimale d'intervention humaine nécessaire pour atteindre un taux de succès de 100% sur l'ensemble des trajectoires testées. L'intérêt de FeudalNav réside dans sa sobriété architecturale. Là où la plupart des navigateurs apprenants reposent sur des graphes topologiques coûteux à maintenir ou sur des représentations métriques qui échouent dans des environnements non cartographiés, FeudalNav prouve qu'une mémoire visuelle latente simple suffit pour guider un agent vers un objectif en terrain inconnu. Cette approche réduit les exigences d'infrastructure embarquée (pas de capteur odométrique requis) et améliore la transférabilité entre environnements, deux critères directement pertinents pour les intégrateurs de robots de service ou d'inspection industrielle. La composante interactive est notable : même une intervention humaine minimale et ponctuelle augmente significativement le taux de réussite global, ce qui ouvre la voie à des architectures human-in-the-loop adaptatives. FeudalNav s'inscrit dans un courant de recherche actif visant à dépasser les navigateurs métriques classiques (SLAM, cartographie 2D/3D) en faveur d'approches fondées sur l'apprentissage et la mémoire sémantique, directement inspirées de la cognition spatiale humaine. Le benchmark Habitat AI, développé par Meta AI Research, est devenu la référence pour évaluer ce type de systèmes en simulation. Les méthodes concurrentes incluent les approches à graphes topologiques (NoMaD, ViNT de Berkeley) et les navigateurs basés sur des Vision-Language Models (VLMaps, CoW). FeudalNav se distingue par sa légèreté et l'absence d'odométrie, mais reste pour l'instant cantonné à la simulation, sans validation sur robot physique annoncée dans cet article.

RecherchePaper
1 source
Caractérisation du couplage des couples tangage-roulis dans des robots à ailes battantes de taille insecte via un cardan microfabriqué
929arXiv cs.RO 

Caractérisation du couplage des couples tangage-roulis dans des robots à ailes battantes de taille insecte via un cardan microfabriqué

Des chercheurs ont publié sur arXiv (réf. 2604.22121) une étude portant sur la caractérisation du couplage entre les couples de tangage (pitch) et de roulis (roll) dans les robots insectes à ailes battantes (FIR, Flapping-wing Insect Robots) sub-gramme. La plateforme testée pèse 180 mg et est actionnée par piézoélectriques, une architecture typique des systèmes volants à l'échelle milligramme, où la fréquence de battement d'aile est calée sur la résonance mécanique. L'outil central de l'étude est un cardan (gimbal) microfabriqué capable de mesurer simultanément le couple de roulis, le couple de tangage et la poussée, comblant ainsi un angle mort instrumental : aucun capteur biaxial ne disposait jusqu'ici d'une sensibilité suffisante pour opérer à cette échelle. Les résultats montrent un coefficient de détermination R² de 0,95 pour le tangage et 0,98 pour le roulis dans la régression linéaire, avec des coefficients de corrélation croisée de -0,001 et -0,085 respectivement, soit un couplage inter-axes négligeable. La poussée ne dévie que de 5,8 % maximum autour de sa valeur moyenne lors des commandes simultanées sur les deux axes. Ces mesures valident une hypothèse de conception qui était jusqu'alors posée sans vérification expérimentale directe : dans les systèmes FIR piézoélectriques, les axes de tangage et de roulis peuvent être traités comme indépendants dans les lois de commande. C'est une donnée structurante pour les équipes qui développent des contrôleurs, des simulateurs ou des modèles aérodynamiques pour ces plateformes : le sim-to-real et la synthèse de correcteurs peuvent s'appuyer sur des modèles découplés sans introduire d'erreur systématique significative. Pour l'écosystème micro-robotique, la contribution méthodologique est peut-être aussi importante que le résultat lui-même : disposer d'un banc de mesure microfabriqué standardisable ouvre la voie à une caractérisation systématique d'autres effets de couplage (yaw, variations d'envergure, asymétries d'aile) qui restent aujourd'hui peu documentés. Le champ des FIR sub-gramme est dominé depuis plus d'une décennie par le RoboBee de Harvard (environ 80 à 100 mg selon les versions), pionnier de l'actionnement piézoélectrique à résonance, et par le DelFly du TU Delft dans la gamme plus élevée (quelques grammes, ailes membraneuses). La modélisation de ces systèmes bute sur deux obstacles conjoints : la complexité mécanique des ailes flexibles et les effets aérodynamiques instationnaires qui rendent les outils classiques de la mécanique du vol inapplicables directement. Cette publication ne mentionne pas d'affiliation ou de financeur dans l'abstract disponible, ce qui limite le contexte institutionnel. Les suites naturelles annoncées sont l'intégration des mesures dans des modèles dynamiques raffinés et leur exploitation pour la conception de contrôleurs plus robustes, étapes préalables à tout déploiement autonome de robots insectes en milieu non contrôlé.

RecherchePaper
1 source
Planification efficace en temps réel pour la robotique en essaim via un tube virtuel optimal
930arXiv cs.RO 

Planification efficace en temps réel pour la robotique en essaim via un tube virtuel optimal

Une équipe de chercheurs propose, dans un preprint arXiv (2505.01380v2, version 2 publiée en mai 2025), un cadre de planification de trajectoires homotopiques pour essaims de robots naviguant dans des environnements à obstacles inconnus. La méthode repose sur un concept de "tube virtuel optimal" : un corridor topologique calculé de manière centralisée, dans lequel chaque robot se déplace de façon distribuée. En exploitant la programmation multiparamétrique pour approximer les trajectoires optimales par des fonctions affines, la complexité de calcul obtenue est en O(nt), où nt désigne le nombre de paramètres de trajectoire. Ce résultat permet une replanification haute fréquence sur des processeurs embarqués à ressources limitées. Les auteurs valident leur approche par simulations et expériences physiques, sans préciser les dimensions des essaims testés ni les conditions réelles de déploiement. Le verrou adressé est structurant pour la robotique en essaim : les planificateurs réactifs offrent une fréquence de replanification élevée mais convergent vers des minima locaux, tandis que les planificateurs multi-étapes réduisent les interblocages au prix d'un coût de calcul incompatible avec les plateformes embarquées. En combinant planification centralisée homotopique et contrôle distribué, le framework se positionne comme une solution hybride crédible. Si les résultats se confirment sur des essaims de plusieurs dizaines d'agents en environnement réel, les applications sont directes : exploration de zones dangereuses, logistique autonome en entrepôt, coordination de flottes d'AMR en espaces encombrés. Les intégrateurs industriels y trouveraient un algorithme de coordination à faible empreinte calculatoire. La planification d'essaims en milieu inconnu est un domaine actif depuis une décennie, avec des contributions majeures d'ETH Zurich, MIT CSAIL et CMU. Les approches par tubes homotopiques existent depuis les années 2010 dans la planification mono-robot ; leur extension aux essaims pose des problèmes de passage à l'échelle que ce travail tente de résoudre par approximation affine. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné : le stade actuel est celui d'une preuve de concept académique. Les étapes naturelles seraient la validation sur des essaims physiques de 20 à 50 robots et la mise à disposition du code, absente de la publication.

RecherchePaper
1 source
Conception conjointe pilotée par la tâche de systèmes multi-robots hétérogènes
931arXiv cs.RO 

Conception conjointe pilotée par la tâche de systèmes multi-robots hétérogènes

Une équipe de recherche a publié sur arXiv (référence 2604.21894) un cadre formel pour la co-conception pilotée par les tâches de systèmes multi-robots hétérogènes. Le problème adressé est fondamental : concevoir une flotte robotique implique de prendre simultanément des décisions sur la morphologie des robots, la composition de la flotte (nombre, types), et les algorithmes de planification, trois domaines traditionnellement traités séparément. Le framework proposé repose sur la théorie de co-conception monotone, qui permet de modéliser robots, flottes, planificateurs et évaluateurs comme des problèmes de conception interconnectés avec des interfaces bien définies, indépendantes des implémentations spécifiques et des tâches cibles. Des séries d'études de cas illustrent l'intégration de nouveaux types de robots, de profils de tâches variés, et d'objectifs de perception probabilistes dans un seul pipeline d'optimisation. L'intérêt industriel tient à la promesse d'optimisation jointe avec garanties d'optimalité, ce que les approches séquentielles actuelles ne peuvent offrir. Pour un intégrateur système ou un COO déployant une flotte AMR dans un entrepôt, la question n'est jamais "quel robot est le meilleur seul" mais "quelle combinaison robot + planificateur + composition de flotte minimise le temps de cycle global sous contrainte budgétaire". Ce framework rend ce raisonnement formellement traçable, et les auteurs soulignent qu'il fait émerger des alternatives de conception non-intuitives que les méthodes ad hoc auraient manquées. La scalabilité et l'interprétabilité revendiquées restent à valider sur des déploiements réels à grande échelle, les résultats publiés restent des études de cas académiques. Ce travail s'inscrit dans un courant de recherche en robotique qui cherche à dépasser les silos disciplinaires : d'un côté la co-conception morphologique (ex : travaux MIT CSAIL sur la co-optimisation structure/contrôle), de l'autre les frameworks de planification multi-agents (ROS 2 Nav2, MoveIt Task Constructor). La théorie de co-conception monotone, développée notamment par Andrea Censi et Luca Carlone, constitue la base théorique. Ce papier étend cette base aux systèmes hétérogènes à grande échelle. Aucune timeline de transfert industriel n'est annoncée, mais le framework pourrait intéresser les éditeurs de logiciels de fleet management (Exotec, Intrinsic/Google, Siemens Xcelerator) comme couche de raisonnement amont à la configuration de flotte.

UEExotec (Bordeaux) et d'autres éditeurs européens de logiciels de gestion de flottes AMR pourraient exploiter ce framework comme couche de raisonnement amont pour l'optimisation conjointe morphologie/composition/planification, mais aucun transfert industriel n'est annoncé.

RecherchePaper
1 source
Du bruit à l'intention : ancrage des politiques VLA génératives par ponts résiduels
932arXiv cs.RO 

Du bruit à l'intention : ancrage des politiques VLA génératives par ponts résiduels

Un préprint déposé le 24 avril 2026 sur arXiv (réf. 2604.21391) présente ResVLA, une nouvelle architecture de politique VLA (Vision-Language-Action) pour le contrôle robotique. Le problème ciblé est le décalage spatiotemporel entre compréhension sémantique de haut niveau et contrôle physique de bas niveau : les VLA actuels génèrent des actions directement "à partir du bruit" (paradigme Generation-from-Noise), produisant une inefficacité de représentation et un alignement faible avec les instructions. ResVLA bascule vers un paradigme "Refinement-from-Intent" : via une analyse spectrale, le mouvement robotique est décomposé en une composante déterministe basse fréquence (l'intention globale) et une composante stochastique haute fréquence (la dynamique locale). Un pont de diffusion résiduel affine ensuite uniquement cette dynamique locale, ancré sur l'intention prédite. Les résultats déclarés incluent une convergence plus rapide que les baselines génératives standards, une robustesse aux perturbations linguistiques et aux variations d'embodiment, et des performances validées en conditions réelles, bien que le papier ne précise pas les plateformes matérielles testées ni les métriques exactes de déploiement physique. Ce travail s'attaque à une limite structurelle des VLA génératifs : ignorer la hiérarchie naturelle du mouvement nuit à l'alignement entre instruction et action. La robustesse à l'embodiment est un point concret pour les intégrateurs travaillant sur des flottes robotiques hétérogènes, où réentraîner un modèle complet par plateforme représente un coût prohibitif. La validation partielle en conditions réelles renforce la crédibilité de l'approche, même si l'absence de métriques détaillées (taux de succès par tâche, temps de cycle, nombre de démos d'entraînement) invite à la prudence avant d'extrapoler les résultats de simulation vers des déploiements industriels. Ce préprint s'inscrit dans une dynamique de recherche intense autour des VLA généralistes. Pi-0 de Physical Intelligence, OpenVLA (UC Berkeley) et les travaux RT-2 de Google DeepMind constituent les références immédiates du domaine. L'approche par résidu spectral est conceptuellement distincte des architectures de diffusion uniformes, mais ResVLA reste une contribution académique sans code public ni produit annoncé. La prochaine étape sera de voir si l'approche se confirme sur des benchmarks partagés comme LIBERO ou BridgeData V2, et si elle influence des frameworks ouverts comme LeRobot de Hugging Face, qui fédère une partie importante de la communauté robotique open-source.

UEImpact indirect et spéculatif : si ResVLA est validé sur des benchmarks partagés, LeRobot (Hugging Face, France) pourrait intégrer cette approche résiduelle, mais aucun acteur ou déploiement européen n'est impliqué à ce stade.

RechercheOpinion
1 source
ZipFold : des actionneurs modulaires pour des robots adaptatifs à grande échelle
933arXiv cs.RO 

ZipFold : des actionneurs modulaires pour des robots adaptatifs à grande échelle

Des chercheurs ont publié en avril 2026 un préprint arXiv (référence 2604.05260v2) présentant ZipFold, un actionneur modulaire capable de transformer simultanément sa taille et sa rigidité par plissage et verrouillage de bandelettes plastiques imprimées en 3D. Le principe repose sur l'enroulement de ces bandelettes flexibles en poutres à section carrée : en position compacte, la structure reste souple et peu encombrante ; en position déployée, elle atteint un état quasi-rigide. La transition est continue, réversible, et ne requiert ni mécanisme hydraulique ni pneumatique. Un prototype intégrant quatre de ces modules a été démontré sous la forme d'un robot marcheur adaptatif capable de modifier dynamiquement sa démarche en ajustant la rigidité de ses membres en temps réel. Le principal intérêt de ZipFold réside dans sa généricité : contrairement aux actionneurs à rigidité variable existants, généralement conçus sur-mesure pour un usage précis et difficilement réutilisables dans un autre contexte, cette brique modulaire peut être assemblée en configurations arbitraires. La fabrication par impression 3D de plastique flexible abaisse le seuil d'entrée pour les équipes de recherche et les petits intégrateurs, sans nécessiter de chaîne d'approvisionnement spécialisée. Pour des systèmes robotiques opérant dans des environnements changeants (logistique, inspection, rééducation), la capacité à modifier le comportement mécanique sans reconfiguration matérielle représente un avantage opérationnel concret. Il faut toutefois tempérer : le papier est un préprint académique sans benchmarks comparatifs publiés face aux alternatives existantes, et les performances annoncées (rigidité atteinte, charge utile, nombre de cycles) restent à valider sur des durées et des conditions représentatives. Le problème de la rigidité variable mobilise la communauté robotique depuis des décennies : les approches pneumatiques (jamming de particules, muscles McKibben), les alliages à mémoire de forme (SMA) et les câbles antagonistes dominent aujourd'hui, mais chacun achoppe sur des compromis entre vitesse de commutation, encombrement et complexité d'intégration. ZipFold se positionne sur le créneau de la modularité fabricatoire, un espace encore peu occupé par des solutions génériques et bas-coût. Le préprint ne mentionne ni partenaire industriel ni calendrier de transfert technologique ; les prochaines étapes attendues incluent des tests de charge, des essais en endurance cyclique, ainsi qu'une démonstration sur des morphologies plus complexes que le marcheur quadrimodulaire actuel.

RecherchePaper
1 source
SLAM comme problème de contrôle stochastique à information partielle : solutions optimales et approximations rigoureuses
934arXiv cs.RO 

SLAM comme problème de contrôle stochastique à information partielle : solutions optimales et approximations rigoureuses

Des chercheurs présentent sur arXiv (réf. 2604.21693, avril 2026) un cadre théorique qui reformule le SLAM actif comme un problème de contrôle stochastique optimal sous information partielle. Le SLAM (Simultaneous Localization and Mapping) désigne la capacité d'un robot à construire une carte de son environnement tout en s'y localisant simultanément, un problème fondamental en robotique mobile. Dans sa version "active", le robot doit en plus décider quels mouvements effectuer pour maximiser la qualité de sa carte et la précision de sa pose. Les auteurs formalisent ce problème sous la forme d'un processus de décision markovien partiellement observable (POMDP) non standard, intégrant de façon rigoureuse les modèles de mouvement, de perception et de représentation de la carte. Ils introduisent une nouvelle fonction de coût d'exploration qui encode explicitement la géométrie de l'état du robot au moment d'évaluer les actions de collecte d'information. À partir de cette formulation, ils dérivent des solutions approchées quasi-optimales avec garanties formelles. Une étude numérique extensive valide l'approche en utilisant des algorithmes d'apprentissage par renforcement standards pour apprendre ces politiques. L'intérêt principal de ce travail réside dans la rigueur théorique qu'il apporte à un domaine dominé par des heuristiques empiriques. La plupart des approches d'exploration autonome actuelles, qu'elles reposent sur les frontières d'exploration (frontier-based), la maximisation d'information mutuelle, ou des métriques ad hoc, manquent de garanties formelles sur la qualité des solutions produites. En reformulant le problème dans le cadre du contrôle stochastique optimal et des POMDPs, les auteurs fournissent des conditions de régularité et des bornes d'approximation qui permettent de certifier la quasi-optimalité des politiques apprises. Pour les équipes R&D travaillant sur des AMR (robots mobiles autonomes), des drones cartographiques ou des robots d'inspection industrielle, cette approche ouvre la voie à des algorithmes d'exploration dont le comportement est formellement auditable, ce qui est non trivial dans les contextes de certification. Le SLAM est un problème étudié depuis les années 1990, avec des approches classiques basées sur les filtres de Kalman étendus (EKF-SLAM) ou les filtres particulaires (FastSLAM), puis des méthodes graphiques comme ORB-SLAM3 ou RTAB-Map qui dominent aujourd'hui les implémentations industrielles. Les approches neuronales, comme les NeRF et Gaussian Splatting adaptés au SLAM temps réel, émergent en parallèle. Ce papier, encore préprint non évalué par les pairs, ne remplace pas ces implémentations mais propose un cadre décisionnel qui les surplombe. Les laboratoires actifs sur ces questions incluent MIT CSAIL, ETH Zurich (Autonomous Systems Lab) et l'équipe de Joan Solà. Les prochaines étapes naturelles seraient une validation expérimentale sur robot réel et une extension vers les environnements dynamiques, deux points non traités dans cette version arXiv.

RecherchePaper
1 source
Scensory : perception olfactive robotique en temps réel pour l'identification conjointe et la localisation de source
935arXiv cs.RO 

Scensory : perception olfactive robotique en temps réel pour l'identification conjointe et la localisation de source

Des chercheurs ont publié sur arXiv (référence 2509.19318, version révisée en 2026) un système baptisé Scensory, conçu pour doter les robots d'une capacité olfactive temps réel appliquée à la détection de contaminations fongiques en intérieur. Le framework repose sur des réseaux de capteurs VOC (composés organiques volatils) bon marché et à sensibilité croisée, couplés à des réseaux de neurones capables d'analyser de courtes séries temporelles de 3 à 7 secondes. Sur un panel de cinq espèces fongiques testées en conditions ambiantes, Scensory atteint 89,85 % de précision pour l'identification de l'espèce et 87,31 % pour la localisation de la source. Les deux tâches sont résolues simultanément, à partir d'un même flux de données capteurs. Ce résultat est techniquement significatif parce que les signaux chimiques en diffusion libre sont particulièrement difficiles à exploiter : contrairement à la vision ou au toucher, où le signal est directionnel et localisé, les panaches olfactifs se dispersent de manière stochastique selon les flux d'air ambiants. Que des capteurs VOC grand public, combinés à un apprentissage supervisé sur données collectées automatiquement par le robot, permettent de relier dynamique temporelle du signal et position spatiale de la source change l'équation économique du nez électronique embarqué. Jusqu'ici, la perception chimique robotique supposait soit des capteurs spécialisés coûteux, soit des conditions contrôlées de laboratoire. Scensory suggère qu'une approche data-driven sur matériel accessible peut combler une partie de ce fossé. Le domaine de l'olfaction robotique reste nettement en retard sur la vision et la manipulation, malgré des travaux académiques réguliers depuis les années 2000 sur les nez électroniques (e-nose) et la navigation par gradient chimique. Les applications visées par Scensory, inspection de bâtiments, monitoring environnemental indoor, contrôle qualité alimentaire, n'ont pas encore de solution robotique commerciale établie. Le papier reste un résultat académique sur arXiv sans déploiement annoncé ni partenaire industriel identifié ; les performances reportées devront être validées sur un spectre élargi d'espèces, de conditions d'humidité et de géométries de pièce avant d'envisager une intégration produit.

RecherchePaper
1 source
Optimisation cinématique des rapports de longueur des phalanges dans les mains robotiques par dextérité potentielle
936arXiv cs.RO 

Optimisation cinématique des rapports de longueur des phalanges dans les mains robotiques par dextérité potentielle

Des chercheurs ont publié sur arXiv (référence 2604.20686) un cadre méthodologique permettant d'optimiser les proportions des phalanges dans les mains robotiques à cinq doigts, sans avoir à définir au préalable des objets précis ou des tâches de manipulation. Le système repose sur quatre métriques d'évaluation : la manipulabilité globale, le volume de l'espace de travail atteignable, le volume d'espace de travail partagé entre les doigts, et la sensibilité des extrémités. L'espace de travail est discrétisé via une représentation en voxels, et les mouvements articulaires sont découpés à intervalles uniformes pour permettre une évaluation systématique. L'optimisation s'applique séparément au pouce et aux quatre autres doigts, en excluant les combinaisons de conception qui ne génèrent pas de chevauchement d'espace de travail entre les doigts. Ce travail répond à un problème concret du développement robotique : jusqu'ici, évaluer quantitativement l'impact des ratios de longueur des phalanges sur la dextérité nécessitait de simuler des scénarios de manipulation spécifiques, ce qui rendait la phase de conception longue et peu généralisable. En proposant une fonction objectif pondérée applicable dès la phase de conception cinématique, les auteurs offrent aux ingénieurs un outil de décision précoce, indépendant des cas d'usage. Les résultats montrent que chaque phalange ne contribue pas de manière égale à la dextérité globale, et que le choix des coefficients de pondération ne conduit pas mécaniquement à maximiser chaque indicateur individuellement, en raison de la distribution non uniforme des mesures dans l'espace de conception. La conception des mains robotiques multi-doigts constitue l'un des défis persistants de la robotique humanoïde et de la manipulation industrielle. Des acteurs comme Boston Dynamics, Shadow Robot ou Agility Robotics investissent massivement dans la dextérité des effecteurs, qui conditionne directement l'utilisabilité des robots dans des environnements non structurés. Ce cadre méthodologique, en analysant systématiquement les compromis entre accessibilité, dextérité et contrôlabilité, pourrait accélérer les cycles de prototypage et s'imposer comme référence dans la conception cinématique des mains robotiques de nouvelle génération.

HumanoïdesPaper
1 source
Cartographie sûre de champs scalaires par transformée de Hough et processus gaussiens
937arXiv cs.RO 

Cartographie sûre de champs scalaires par transformée de Hough et processus gaussiens

Des chercheurs ont publié, le 29 avril 2026, un article présenté sur arXiv (référence 2604.20799) décrivant un système permettant à un robot autonome de cartographier des champs scalaires inconnus tout en évitant automatiquement les zones dangereuses. Le cadre proposé repose sur deux composants mathématiques combinés : les processus gaussiens (GP), qui modélisent la distribution spatiale du champ mesuré, et la transformée de Hough (HT), qui détecte en temps réel la géométrie des zones à haute intensité. Concrètement, un robot équipé de capteurs doit mesurer un champ physique, par exemple d'intensité lumineuse ou de radiation, sans jamais pénétrer dans les régions où la valeur dépasse un seuil de sécurité prédéfini. La validation repose sur deux études de simulation numérique et une expérience en intérieur impliquant un robot mobile à roues cartographiant un champ d'intensité lumineuse. L'enjeu concret est de permettre une exploration robuste et sécurisée dans des environnements potentiellement hostiles, tels que des zones de radiation, des champs électromagnétiques intenses ou des atmosphères chimiques, sans exposer le robot à des dommages irréversibles. L'approche bayésienne des processus gaussiens offre un double avantage : elle fournit non seulement une estimation de la valeur du champ en tout point, mais aussi une mesure d'incertitude associée, permettant au système de planifier ses déplacements avec des garanties probabilistes de sécurité. Cela dépasse les approches classiques qui traitent sécurité et cartographie comme deux problèmes séparés. Ce travail s'inscrit dans un champ de recherche actif sur la robotique d'exploration intelligente, où la demande croissante pour des robots capables d'opérer sans supervision humaine dans des environnements extrêmes, nucléaires, industriels ou de défense, pousse à intégrer des garanties formelles de sécurité directement dans la boucle de planification. La transformée de Hough, outil historiquement utilisé en vision par ordinateur pour détecter des formes géométriques, est ici réinterprétée comme un estimateur structurel de zones à risque à partir de données capteurs partielles. Les prochaines étapes naturelles de ce travail incluront des tests en environnements réels non contrôlés et l'extension à des champs vectoriels ou des robots multi-agents.

RecherchePaper
1 source
Adaptation spatio-temporelle multi-cycles dans le travail en équipe humain-robot
938arXiv cs.RO 

Adaptation spatio-temporelle multi-cycles dans le travail en équipe humain-robot

Une équipe de chercheurs a publié sur arXiv (ref. 2404.19670) un framework baptisé RAPIDDS, conçu pour améliorer la collaboration entre humains et robots dans des environnements industriels répétitifs, typiquement les lignes de fabrication. Le système opère sur plusieurs cycles de travail successifs : à chaque cycle, il apprend les comportements spatiaux (trajectoires réelles empruntées par l'opérateur) et temporels (temps effectifs de réalisation de chaque tâche) propres à l'individu face à lui. Ces modèles personnalisés alimentent ensuite deux mécanismes couplés : un planificateur de tâches qui réorganise allocations et séquençages, et un modèle de diffusion qui steer les trajectoires du robot en temps réel pour éviter les zones de proximité critique. Les expériences ont été conduites en simulation, puis sur un bras robotique à 7 degrés de liberté (7-DOF) dans un scénario physique, et validées par une étude utilisateur portant sur 32 participants (n=32). Les résultats montrent une amélioration significative sur des indicateurs objectifs (efficacité, distance de proximité) et subjectifs (fluidité perçue, préférence utilisateur) par rapport à un système non adaptatif. L'apport central de RAPIDDS réside dans la jonction de deux niveaux d'adaptation longtemps traités séparément dans la littérature. Les méthodes de planification de tâches optimisaient l'allocation et le séquençage mais ignoraient les interférences spatiales en situation de proximité étroite ; les méthodes de niveau motion se concentraient sur l'évitement de collision sans tenir compte du contexte global de la tâche. Unifier les deux, en les calibrant sur un modèle individuel mis à jour cycle après cycle, représente un changement concret de posture pour les déploiements industriels : le robot ne s'adapte pas à un opérateur générique, mais à la personne précise qui travaille ce jour-là, avec ses rythmes et ses habitudes de déplacement. Ce travail s'inscrit dans un courant plus large d'utilisation des modèles de diffusion pour la génération de trajectoires robotiques, un terrain que des acteurs comme Physical Intelligence (Pi-0) ou NVIDIA (GR00T N2) exploitent côté manipulation généraliste. RAPIDDS se distingue par sa focalisation sur la couche adaptation humain-robot plutôt que sur la polyvalence du modèle de motion. Le papier reste pour l'instant un preprint arXiv non encore soumis à peer-review, et aucun déploiement industriel ni partenariat avec un intégrateur n'est mentionné. La prochaine étape naturelle serait une validation sur des opérateurs en conditions réelles de production, avec une diversité de profils moteurs, pour tester la robustesse de la personnalisation au-delà d'un environnement contrôlé.

RecherchePaper
1 source
HALO : locomotion hybride auto-encodée avec dynamiques latentes apprises, cartes de Poincaré et régions d'attraction
939arXiv cs.RO 

HALO : locomotion hybride auto-encodée avec dynamiques latentes apprises, cartes de Poincaré et régions d'attraction

HALO (Hybrid Auto-encoded Locomotion with Learned Latent Dynamics) est un framework académique publié en avril 2026 sur arXiv (2604.18887) autour d'un problème central de la robotique bipedale : construire des modèles d'ordre réduit qui représentent fidèlement la dynamique hybride des robots à jambes tout en offrant des garanties formelles de stabilité. L'approche combine un autoencodeur neuronal, qui apprend une représentation latente basse dimension depuis des trajectoires de locomotion périodique, avec une carte de Poincaré apprise dans cet espace latent. Cette carte modélise la dynamique pas-à-pas du cycle de marche ou de saut et permet de construire des régions d'attraction (RoA) via une analyse de Lyapunov, projetables ensuite vers l'espace d'état complet via le décodeur. Les validations sont conduites en simulation sur un robot sauteur et un humanoïde corps entier. Ce travail tente de combler un fossé persistant entre deux familles de méthodes. Les modèles analytiques classiques comme le Linear Inverted Pendulum (LIP) ou le Spring-Loaded Inverted Pendulum (SLIP) offrent des garanties de stabilité rigoureuses, mais approximent mal la dynamique réelle d'un humanoïde haute dimensionnalité. Les méthodes data-driven récentes capturent mieux la physique du système, mais sans transfert formel des propriétés de stabilité au système complet. HALO propose une voie hybride : apprendre la structure de l'espace d'état depuis les données, puis y appliquer les outils classiques de l'automatique. Pour les développeurs de contrôleurs de locomotion, borner formellement des zones de stabilité sans modèle analytique exact constitue un apport potentiellement significatif. L'approche s'ancre dans une littérature établie sur les systèmes dynamiques hybrides à contacts discontinus, notamment les hybrid zero dynamics et les Control Barrier Functions (CBF) développés par Aaron Ames à Caltech. La carte de Poincaré, outil classique pour analyser les orbites périodiques, est ici apprise depuis les données plutôt que dérivée analytiquement. La limite principale reste l'absence totale de validation sur robot physique : les résultats sont exclusivement en simulation, et le gap sim-to-real n'est pas adressé. Les acteurs industriels comme Boston Dynamics, Agility Robotics ou Figure, qui déploient des humanoïdes en environnement réel, resteront prudents avant d'intégrer des RoA apprises sans expérimentation hardware. Les suites logiques impliqueraient des tests sur plateforme physique et une intégration dans des pipelines MPC ou des frameworks comme Drake.

RecherchePaper
1 source
Apprentissage de politique par phases pour la conduite de skateboard par des robots quadrupèdes via modulation linéaire par caractéristiques
940arXiv cs.RO 

Apprentissage de politique par phases pour la conduite de skateboard par des robots quadrupèdes via modulation linéaire par caractéristiques

Des chercheurs ont publié sur arXiv (2602.09370v2) un cadre d'apprentissage par renforcement baptisé PAPL (Phase-Aware Policy Learning), conçu pour permettre à des robots quadrupèdes de se déplacer sur une planche de skateboard. Le défi central est la nature cyclique et multi-phasée de l'activité : pousser, glisser et freiner mobilisent des objectifs de contrôle distincts et des interactions fortement dépendantes de la perception. Pour y répondre, PAPL intègre des couches FiLM (Feature-wise Linear Modulation) conditionnées par phase dans les réseaux acteur et critique de l'agent, permettant à une politique unifiée de capturer les comportements propres à chaque phase tout en partageant la connaissance générale du robot entre elles. Les évaluations en simulation valident la précision du suivi de commande, des études d'ablation quantifient la contribution de chaque composant, et les auteurs comparent l'efficacité locomotrice à des baselines pattes seules et pattes-roues. Un transfert sim-to-real est également démontré sur plateforme physique, bien que l'abstract ne précise pas le modèle de robot utilisé ni les métriques de performance obtenues. L'intérêt principal de cette approche tient à sa capacité à gérer des comportements multi-modaux au sein d'une politique unique, sans multiplier les modules spécialisés par phase. Utiliser un skateboard comme vecteur de locomotion est économique en énergie et compact, ce qui ouvre des perspectives concrètes dans des environnements industriels ou logistiques où les robots doivent couvrir de longues distances sans recharger. La démonstration du transfert simulation-réel est l'élément le plus scruté par la communauté robotique : le sim-to-real gap reste l'obstacle central à la généralisation des politiques apprises par renforcement, et chaque validation hardware crédibilise un cadre. À noter toutefois que l'abstract ne fournit aucune métrique chiffrée précise (vitesse, taux de succès, distance), ce qui limite l'évaluation indépendante des performances avant lecture du papier complet. PAPL s'inscrit dans un courant de recherche plus large visant à doter les robots à pattes de modes de mobilité hybrides ou étendus. Les couches FiLM, initialement développées pour le raisonnement visuel conditionné en apprentissage automatique, trouvent ici une application originale dans le contrôle moteur cyclique. Sur le plan concurrentiel, les plateformes pattes-roues comme l'ANYmal WE d'ANYbotics ou les variantes hybrides de Unitree explorent une voie différente : l'intégration des roues y est mécanique, non comportementale. L'approche PAPL est donc structurellement distincte et potentiellement complémentaire à ces architectures. Ce travail reste à ce stade un preprint arXiv sans déploiement commercial annoncé ; les suites logiques seraient une validation sur plateforme standardisée et une soumission en conférence majeure comme ICRA ou IROS 2026.

RecherchePaper
1 source
GaLa : des modèles vision-langage guidés par hypergraphe pour la planification procédurale
941arXiv cs.RO 

GaLa : des modèles vision-langage guidés par hypergraphe pour la planification procédurale

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.17241) un nouveau framework vision-langage baptisé GaLa, conçu pour améliorer la planification procédurale dans les systèmes d'IA incarnée. Le système repose sur une représentation par hypergraphe : chaque objet détecté dans une scène devient un nœud, tandis que des hyper-arêtes agrègent ces objets selon leurs attributs fonctionnels et leur sémantique pour former des régions cohérentes. GaLa intègre également un encodeur baptisé TriView HyperGraph Encoder, qui impose une cohérence sémantique entre trois niveaux de représentation (vue nœud, vue zone, vue association nœud-zone) via apprentissage contrastif. Les expériences menées sur les benchmarks ActPlan1K et ALFRED montrent des gains significatifs sur le taux de succès d'exécution, le score LCS (Longest Common Subsequence) et la correction des plans générés, sans que les auteurs ne publient de chiffres absolus précis dans le résumé disponible. Ce travail cible un problème bien documenté dans la robotique d'interaction : les VLMs (Vision-Language Models) actuels raisonnent correctement sur du langage et de l'image de façon isolée, mais peinent à saisir les relations spatiales implicites et la hiérarchie fonctionnelle d'une scène réelle. Pour un robot devant exécuter une séquence de tâches domestiques (préparer un repas, ranger des objets), comprendre que le plan de travail et le réfrigérateur appartiennent à la même région fonctionnelle change radicalement la qualité du plan généré. GaLa propose une couche de structuration explicite en amont du raisonnement VLM, ce qui réduit la dépendance aux capacités d'inférence implicite des modèles de fondation et ouvre la voie à une meilleure généralisation sur des scènes non vues. Le benchmark ALFRED, développé par Allen AI, est devenu la référence standard pour évaluer la planification procédurale en environnement simulé domestique, et ActPlan1K cible des scénarios procéduraux plus complexes. La tendance actuelle dans ce sous-domaine consiste à enrichir les VLMs généralistes (GPT-4o, LLaVA, InternVL) avec des modules de représentation structurée, une approche que GaLa pousse plus loin que les travaux précédents via l'hypergraphe. Les concurrents directs incluent des travaux comme SQA3D, EmbodiedScan ou les pipelines VLA (Vision-Language-Action) de Physical Intelligence (pi0) et de Google DeepMind, qui cherchent eux aussi à réduire le gap simulation-réel. GaLa reste pour l'instant un résultat de recherche académique sans déploiement physique annoncé.

RechercheActu
1 source
Modèles de diffusion séquentiels pour l'apprentissage méta en contexte de la dynamique des robots
942arXiv cs.RO 

Modèles de diffusion séquentiels pour l'apprentissage méta en contexte de la dynamique des robots

Des chercheurs ont publié sur arXiv (réf. 2604.13366) une étude comparative portant sur l'identification de systèmes robotiques par méta-apprentissage en contexte, en opposant des modèles de séquences déterministes à des approches génératives basées sur la diffusion. L'équipe reformule le problème classique de l'identification de dynamiques robotiques comme une tâche de méta-apprentissage in-context : le modèle observe une séquence de paires (commande, observation) pour inférer les paramètres dynamiques d'un robot sans re-entraînement. Deux architectures de diffusion sont introduites et évaluées face à une baseline Transformer déterministe : une diffusion par inpainting (inspirée de Diffuser), qui apprend la distribution jointe entrée-observation, et des modèles de diffusion conditionnés sur les entrées de contrôle, déclinés en versions CNN et Transformer. Les expériences sont menées à grande échelle dans des simulations randomisées couvrant des régimes en distribution et hors distribution. Ces résultats sont significatifs pour la commande basée sur modèle (model-based control), qui exige des prédictions de dynamique précises et robustes. L'étude montre que les modèles de diffusion surpassent nettement la baseline déterministe lorsque les conditions d'exécution s'écartent de la distribution d'entraînement, un scénario courant dans les déploiements industriels réels où les robots rencontrent des charges utiles variables, des surfaces inattendues ou de l'usure mécanique. La diffusion par inpainting obtient les meilleures performances globales. Un résultat clé concerne la contrainte temps réel : grâce à un échantillonnage à démarrage chaud (warm-started sampling), les modèles de diffusion parviennent à opérer dans les fenêtres temporelles exigées par les boucles de contrôle, levant ainsi un obstacle majeur à leur adoption pratique. Ce travail s'inscrit dans un courant de recherche actif qui cherche à combiner les capacités génératives des modèles de diffusion avec les exigences de robustesse et de latence du contrôle robotique. La diffusion appliquée à la planification de trajectoires et à la prédiction de dynamiques a émergé avec des travaux comme Diffuser (Janner et al., 2022) et se confronte ici à un scénario de méta-apprentissage, plus réaliste pour des robots déployés dans des environnements variables. Les concurrents directs incluent les approches probabilistes bayésiennes et les réseaux neuronaux récurrents pour l'identification en ligne. La prochaine étape naturelle sera une validation sur hardware réel, notamment pour confirmer que les gains hors distribution observés en simulation résistent au sim-to-real gap.

RecherchePaper
1 source
Optimisation par diffusion pour accélérer la convergence des problèmes à temps minimal sur bras doubles redondants
943arXiv cs.RO 

Optimisation par diffusion pour accélérer la convergence des problèmes à temps minimal sur bras doubles redondants

Une équipe de chercheurs a publié sur arXiv (ref. 2504.16670) un cadre d'optimisation par diffusion pour résoudre le problème du temps minimum de déplacement sur un robot à double bras redondant. L'objectif est de minimiser le temps nécessaire pour qu'une configuration dual-arm suive un chemin cartésien relatif défini, tout en respectant les contraintes articulaires et l'erreur cartésienne. Les résultats annoncés sont significatifs : réduction de 35x du temps de calcul et diminution de 34 % de l'erreur cartésienne par rapport à la méthode précédente des mêmes auteurs, qui reposait sur une approche bi-niveaux avec résolution primal-dual. Ce gain de performance est important pour la robotique industrielle collaborative, où les bras doubles, typiquement utilisés en assemblage, en manipulation d'objets encombrants ou en chirurgie assistée, doivent exécuter des trajectoires précises dans des temps de cycle serrés. La méthode antérieure, basée sur le gradient, souffrait de deux limitations structurelles : une charge de calcul élevée rendant la planification en quasi-temps-réel difficile, et une incapacité à imposer directement une contrainte d'erreur cartésienne en norme infinie (L∞) le long de la trajectoire, en raison de la sparsité du gradient. Le passage à un échantillonnage probabiliste via un algorithme de diffusion permet de contourner ces deux problèmes simultanément, ce qui constitue une avancée méthodologique réelle, même si les benchmarks restent pour l'instant sur simulation. Le contexte est celui de l'essor des planificateurs de mouvement basés sur l'apprentissage et les méthodes probabilistes pour les robots à haute redondance cinématique. Les approches par diffusion, popularisées dans la génération d'images puis étendues à la robotique via des travaux comme pi0 (Physical Intelligence) ou des planificateurs de trajectoire neuronaux, gagnent du terrain face aux solveurs classiques (CHOMP, TrajOpt) sur des critères de vitesse et de généralisation. Ce travail s'inscrit dans cette tendance en restant ancré dans un cadre d'optimisation formelle (contrôle optimal), ce qui lui confère une interprétabilité que les approches purement end-to-end n'offrent pas encore. La prochaine étape naturelle serait une validation sur hardware physique avec contraintes temps-réel.

RecherchePaper
1 source
Arrêt d'urgence pour robots manipulant des liquides
944arXiv cs.RO 

Arrêt d'urgence pour robots manipulant des liquides

Des chercheurs ont publié sur arXiv (référence 2604.16667) une méthode d'arrêt d'urgence pour robots manipulant des contenants liquides ouverts. Le système génère des trajectoires d'arrêt optimales en temps minimal sans provoquer de renversement, en résolvant un problème de contrôle optimal dans un cadre de commande prédictive par modèle (MPC). La validation expérimentale a été réalisée sur un bras Franka Emika Panda à 7 degrés de liberté, en complément de simulations. L'approche se présente comme une couche de sécurité plug-and-play superposable aux planificateurs de trajectoire anti-éclaboussures existants, sans les remplacer. Le problème adressé est concret : la manipulation de liquides en contenants ouverts est déjà difficile en régime nominal, car les liquides réagissent fortement aux accélérations et aux à-coups du bras porteur. Mais les scénarios d'urgence, ceux où un opérateur entre dans la zone de travail ou qu'un capteur détecte un obstacle imprévu, n'ont jusqu'ici reçu que peu d'attention dans la littérature. Un arrêt brusque classique génère des oscillations de surface susceptibles de provoquer des déversements de produits dangereux, chimiques ou alimentaires. La contribution ici est de coupler la dynamique non-linéaire des fluides au MPC pour calculer en temps réel la trajectoire d'arrêt la plus rapide qui reste dans les limites de sécurité anti-débordement, ce qui est non trivial dès que le contenant n'est pas rempli à ras bord. La manipulation de liquides par robot est un sujet actif depuis une décennie, porté notamment par des travaux sur le sloshing control et les trajectoires de type bang-bang modifiées. Le Franka Panda est le banc d'essai académique standard, ce qui facilite la reproductibilité mais limite la portée industrielle directe : les bras collaboratifs déployés en laboratoire pharmaceutique ou agroalimentaire ont des dynamiques différentes. Les prochaines étapes logiques seraient une validation sur des robots industriels à plus haute vitesse (KUKA, Fanuc) et l'intégration avec des systèmes de détection d'obstacles en temps réel type LiDAR ou vision. Aucun partenaire industriel ni calendrier de transfert n'est mentionné dans la publication.

RecherchePaper
1 source
Learning-Based Sparsification of Dynamic Graphs in Robotic Exploration Algorithms
945arXiv cs.RO 

Learning-Based Sparsification of Dynamic Graphs in Robotic Exploration Algorithms

Des chercheurs ont publié sur arXiv (arXiv:2504.16509) une architecture transformer entraînée par apprentissage par renforcement, spécifiquement l'algorithme PPO (Proximal Policy Optimization), pour élaguer dynamiquement les graphes de planification utilisés dans les algorithmes d'exploration robotique. Le système cible les graphes RRT (Rapidly Exploring Random Trees) employés dans l'exploration par frontières, une méthode classique où un robot identifie les limites entre zones cartographiées et inconnues pour piloter sa navigation. En simulation, le framework réduit la taille des graphes jusqu'à 96 % sans intervention humaine, en prenant des décisions de suppression de nœuds en temps réel pendant que le robot explore son environnement. L'intérêt opérationnel est direct : dans les systèmes d'exploration autonome longue durée, entrepôts, sites industriels, bâtiments en intervention d'urgence, les graphes de planification grossissent de façon non bornée et dégradent les performances au fil du temps, forçant soit des redémarrages, soit des architectures mémoire coûteuses. Ici, la politique apprise parvient à associer des décisions locales d'élagage à des résultats d'exploration globaux malgré un signal de récompense rare et retardé, ce qui constitue le résultat le plus difficile à obtenir en RL appliqué à la planification. En contrepartie, le taux d'exploration moyen est légèrement inférieur aux baselines non élagués, mais l'écart-type de couverture est le plus bas observé : le robot explore moins vite, mais de façon nettement plus prévisible d'un environnement à l'autre, un critère souvent plus pertinent en déploiement industriel que la vitesse brute. La sparsification de graphes dynamiques est un problème connu en SLAM et planification de mouvement, traditionnellement traité par des heuristiques géométriques ou des seuils fixes. Appliquer du RL à cette couche basse de la pile robotique est, selon les auteurs, une première. Le travail reste à ce stade une preuve de concept en simulation, sans validation sur hardware réel ni comparaison avec des systèmes commerciaux comme les AMR de MiR, Fetch Robotics ou Exotec. Les prochaines étapes naturelles seraient un transfert sim-to-real et une évaluation sur des graphes issus de LiDAR 3D, contexte dans lequel la croissance exponentielle des graphes est particulièrement problématique.

RecherchePaper
1 source
Planification de trajectoire STL et analyse des risques pour la collaboration humain-robot avec un drone multi-rotors
946arXiv cs.RO 

Planification de trajectoire STL et analyse des risques pour la collaboration humain-robot avec un drone multi-rotors

Des chercheurs ont publié sur arXiv (référence 2509.10692, troisième révision en avril 2026) un framework de planification de mouvement et d'analyse de risque pour la collaboration humain-robot avec un véhicule aérien multirotor. Le coeur du système repose sur la Signal Temporal Logic (STL), un formalisme mathématique permettant d'encoder des objectifs de mission structurés : contraintes de sécurité, exigences temporelles, et préférences humaines incluant l'ergonomie et le confort de l'opérateur. Un planificateur par optimisation génère des trajectoires dynamiquement faisables en tenant compte des dynamiques non-linéaires du drone et de ses contraintes d'actuation. Pour résoudre le problème d'optimisation non-convexe et non-lisse qui en résulte, le framework adopte des approximations de robustesse différentiables combinées à des méthodes de gradient. Le système inclut également un mécanisme de replanification en ligne déclenché par événements, activé lorsque des perturbations menacent les marges de sécurité. La validation s'appuie exclusivement sur des simulations MATLAB et Gazebo, sur une tâche de remise d'objet inspirée de la maintenance de lignes électriques. Ce travail adresse un verrou réel dans le déploiement de drones en environnement industriel partagé : la cohabitation sûre avec des techniciens humains dont la posture est incertaine et dynamique. L'analyse de risque probabiliste quantifie la vraisemblance de violations de spécifications sous incertitude de pose humaine, ce qui représente une avancée par rapport aux approches conservatrices à marge fixe. La replanification événementielle permet une récupération en ligne sans interrompre la mission, un critère déterminant pour les applications en conditions réelles. Cela dit, l'absence de validation physique sur hardware réel constitue une limite importante : le gap sim-to-real pour les drones en proximité humaine reste un problème ouvert, et les résultats en simulation Gazebo ne peuvent pas être directement extrapolés à un déploiement terrain. Le contexte de ce travail s'inscrit dans un effort plus large de la communauté robotique aérienne pour rendre les drones industriels opérables à proximité immédiate des travailleurs, notamment dans les secteurs de l'énergie et de la maintenance d'infrastructures. Côté concurrence, des acteurs comme Skydio (USA) ou Flyability (Suisse) avancent sur des drones robustes en environnement contraint, mais sans formalisme STL ni modèle explicite d'interaction humain-robot. En Europe, des projets académiques financés par l'ANR et H2020 explorent des pistes similaires. La prochaine étape naturelle pour ce framework serait une validation sur banc physique avec un multirotor réel et des opérateurs humains instrumentés, condition sine qua non avant toute intégration industrielle.

UEDes projets ANR et H2020 explorent des approches similaires ; ce framework STL pourrait alimenter la recherche européenne sur les drones industriels en proximité humaine, notamment pour la maintenance d'infrastructures énergétiques.

RecherchePaper
1 source
De la cinématique à la dynamique : apprendre à affiner des plans hybrides pour une exécution physiquement faisable
947arXiv cs.RO 

De la cinématique à la dynamique : apprendre à affiner des plans hybrides pour une exécution physiquement faisable

Une équipe de chercheurs présente dans un préprint arXiv (2604.12474, avril 2026) une méthode d'apprentissage par renforcement (RL) conçue pour corriger les trajectoires générées par des planificateurs hybrides temporels avant exécution réelle sur un robot. Le problème central est classique : lorsqu'un robot doit traverser une séquence de régions spatiales en respectant des contraintes de délais, de fenêtres temporelles et de limites en vitesse ou accélération, les planificateurs hybrides actuels modélisent le mouvement via des dynamiques linéaires du premier ordre (cinématique pure), sans tenir compte des contraintes physiques réelles du système. Il en résulte des plans qui sont logiquement valides mais dynamiquement infaisables. Les auteurs formalisent ce problème de raffinement comme un processus de décision markovien (MDP) intégrant explicitement des contraintes analytiques du second ordre (accélération, couple) et entraînent un agent RL en espace continu pour transformer le plan initial en une trajectoire exécutable. L'intérêt pratique est direct pour les intégrateurs et les équipes robotique : le sim-to-real gap le plus coûteux n'est souvent pas dans la perception ou la préhension, mais dans le suivi de trajectoire. Un plan validé par un planificateur symbolique peut générer des couples impossibles ou des profils de vitesse non bornés, forçant les équipes terrain à retoucher les trajectoires à la main ou à surcontraindre le planificateur. La méthode proposée agit comme une couche de post-traitement apprenante qui récupère la faisabilité physique de manière fiable, sans rejeter la séquence d'actions de haut niveau, et sans nécessiter une re-planification complète. Cela positionne l'approche comme un outil de robustification entre le niveau symbolique et le contrôleur bas niveau, un segment peu adressé dans la littérature. Les planificateurs hybrides temporels comme PDDL+ ou ENHSP tentent depuis une décennie d'intégrer la dynamique continue dans la planification symbolique, avec des résultats limités dès que les modèles s'éloignent de la linéarité. Les approches concurrentes incluent le MPC (Model Predictive Control) et les méthodes de trajectory optimization (iLQR, MPPI), mais elles supposent généralement un plan discret déjà fixé ou ignorent les contraintes temporelles symboliques. La contribution ici est leur combinaison explicite via RL. Le papier reste au stade de la preuve de concept sur des scénarios de navigation structurés ; les prochaines étapes naturelles seraient la validation sur hardware avec des dynamiques plus riches (bras manipulateurs, humanoïdes) et des benchmarks comparatifs contre MPC sur des horizons longs.

RecherchePaper
1 source
Locomotion d'un robot serpent élastique par dynamique naturelle
948arXiv cs.RO 

Locomotion d'un robot serpent élastique par dynamique naturelle

Des chercheurs ont publié le 24 avril 2026 sur arXiv (référence 2604.17895) une étude portant sur la locomotion d'un robot serpent élastique exploitant ses dynamiques naturelles pour améliorer l'efficacité énergétique de ses déplacements. L'approche repose sur la théorie des eigenmanifolds, un cadre mathématique permettant de caractériser les comportements dynamiques non linéaires de systèmes mécaniques complexes. Les auteurs ont conçu et testé deux familles d'allures (gaits) fondées sur ces dynamiques naturelles : l'une basée sur la commutation entre deux modes normaux non linéaires, l'autre sur des trajectoires périodiques dites "non-brake orbits". Les simulations dynamiques montrent que les gaits par non-brake orbits atteignent une efficacité parfaite dans le cas conservatif (sans frottement), et surpassent un robot rigide de référence dans un scénario réaliste avec frottement. La commutation entre modes normaux non linéaires, en revanche, n'apporte pas de gain d'efficacité significatif par rapport à la baseline. Ces résultats ont des implications concrètes pour la conception de robots locomoteurs à corps mou ou semi-élastique. L'idée d'exploiter la compliance mécanique plutôt que de la compenser par du contrôle actif est une hypothèse ancienne dans la robotique bio-inspirée, mais elle restait difficile à formaliser rigoureusement pour des systèmes non linéaires. Cette publication fournit un cadre analytique opérationnel : la théorie des eigenmanifolds permet d'identifier des trajectoires naturelles exploitables, réduisant le coût de transport sans augmenter la complexité du contrôleur. Pour les intégrateurs et concepteurs de systèmes d'inspection en espace confiné, tuyaux ou structures irrégulières, cela ouvre une voie vers des plateformes plus autonomes énergétiquement, réduisant la dépendance à des batteries lourdes ou à des liaisons filaires. Les robots serpents élastiques s'inscrivent dans une tradition de recherche en locomotion bio-inspirée qui remonte aux travaux des années 1990 sur les serpentins modulaires (CMU Biorobotics Lab, SINTEF en Norvège). La théorie des eigenmanifolds, issue de la mécanique analytique, a été appliquée récemment à des robots à pattes et des manipulateurs élastiques avant d'être étendue ici aux systèmes sériels à haute redondance cinématique. Côté concurrents, des groupes comme le Dynamic Robotics and Control Lab de l'ETH Zurich ou le groupe ANYbotics travaillent sur la compliance passive pour la locomotion, mais sur des architectures à pattes. Dans l'espace serpent/continuum, des acteurs comme Medrobotics (médical) ou des spin-offs académiques européens explorent des niches applicatives. L'étape suivante identifiée par les auteurs est la validation expérimentale sur prototype physique, absente de cette publication, ce qui maintient les résultats au stade de la preuve de concept simulée.

RecherchePaper
1 source
Greedy Kalman-Swarm : amélioration de l'estimation d'état dans les essaims de robots en environnements difficiles
949arXiv cs.RO 

Greedy Kalman-Swarm : amélioration de l'estimation d'état dans les essaims de robots en environnements difficiles

Des chercheurs ont publié sur arXiv (référence 2604.16868) une méthode de filtrage de Kalman distribué baptisée "Greedy Kalman-Swarm", conçue pour améliorer l'estimation d'état dans les essaims de robots opérant en environnements dégradés. Le principe : chaque robot intègre, à chaque itération, l'ensemble des données de voisinage disponibles au moment précis du calcul, sans attendre une synchronisation globale. Contrairement aux approches classiques qui requièrent soit un nœud centralisateur, soit des protocoles de communication lourds pour atteindre un consensus collectif, cette méthode fonctionne de façon purement locale. Les simulations menées dans des environnements à connectivité contrainte montrent que le système reste fonctionnel même en cas de perte partielle de données entre agents, tout en maintenant une précision supérieure à celle d'un filtre de Kalman purement individuel. L'enjeu industriel est réel pour les déploiements multi-robots en milieu non structuré. La plupart des architectures d'essaim actuelles butent sur un compromis difficile : la précision collective nécessite soit une infrastructure de communication fiable et à large bande passante, soit une unité centrale de fusion de données, deux hypothèses rarement tenables sur le terrain. Le Greedy Kalman-Swarm démontre qu'une cohésion globale peut émerger de comportements locaux greedy, sans consensus explicitement imposé. C'est un résultat qui contredit l'intuition dominante selon laquelle la précision collective exige de la coordination synchrone, et qui ouvre la voie à des essaims véritablement autonomes dans des conditions adverses, sans dépendance à une infrastructure fixe. Le filtrage de Kalman est une brique fondamentale de l'estimation d'état en robotique depuis les années 1960, et son extension aux systèmes multi-agents fait l'objet de travaux actifs depuis au moins deux décennies. Les approches distribuées existantes, comme le Kalman consensus filter ou les variantes à diffusion de données, supposent généralement une topologie de communication stable ou des échanges périodiques complets. Greedy Kalman-Swarm se positionne comme une alternative légère, scalable et tolérante aux pannes. Les auteurs ciblent explicitement deux applications : la recherche et le sauvetage (search-and-rescue) en milieu sinistré, et l'exploration spatiale, deux domaines où la fiabilité des liaisons radio ne peut être garantie. Le code n'est pas encore publié et les résultats restent pour l'instant au stade de la simulation, ce qui appelle une validation sur matériel réel avant tout déploiement opérationnel.

RecherchePaper
1 source
Incertitude, flou et ambiguïté dans l'interaction humain-robot : pourquoi la conceptualisation est essentielle
950arXiv cs.RO 

Incertitude, flou et ambiguïté dans l'interaction humain-robot : pourquoi la conceptualisation est essentielle

Une équipe de chercheurs a soumis fin avril 2026 sur arXiv (référence 2604.15339) un article proposant un cadre conceptuel unifié pour trois notions centrales de l'interaction humain-robot : l'incertitude, le flou et l'ambiguïté. Le constat de départ est empirique : dans la littérature HRI, ces trois termes sont régulièrement définis de manière contradictoire d'une étude à l'autre, voire utilisés comme synonymes. Les auteurs partent des définitions lexicographiques, analysent les distinctions et les relations entre ces concepts dans le contexte spécifique du HRI, illustrent chaque notion par des exemples concrets, puis démontrent comment ce socle cohérent permet de concevoir de nouvelles méthodes et d'évaluer les méthodologies existantes avec plus de rigueur. L'enjeu n'est pas seulement terminologique. Quand deux équipes utilisent le mot "ambiguïté" pour désigner des phénomènes différents, leurs résultats expérimentaux deviennent non comparables, et la capitalisation théorique du domaine ralentit. Pour un intégrateur ou un concepteur de systèmes robotiques interactifs, cette confusion a des conséquences pratiques : les métriques d'évaluation divergent, les benchmarks perdent leur valeur de référence, et le transfert de résultats de laboratoire vers des déploiements réels est fragilisé. En établissant des frontières claires entre ces trois concepts, le papier prépare le terrain pour des protocoles d'évaluation reproductibles et des méta-analyses plus robustes, deux prérequis pour une maturation industrielle du HRI. Ce travail s'inscrit dans un mouvement plus large de structuration académique du HRI, discipline jeune à l'intersection de la robotique, des sciences cognitives et de la linguistique. Le problème de l'incohérence terminologique y est identifié depuis plusieurs années, notamment dans des travaux sur la communication intentionnelle et la résolution de références entre humains et robots. Les auteurs ne proposent pas ici un nouveau système technique mais une infrastructure conceptuelle, ce qui est typiquement le type de contribution qui précède une normalisation de fait dans un domaine. Les prochaines étapes naturelles seraient l'adoption de ce cadre dans des conférences de référence comme HRI, RO-MAN ou HRI Workshop de l'IEEE, et son intégration dans des protocoles d'évaluation standardisés pour les assistants robotiques en environnement industriel ou de service.

RecherchePaper
1 source