Aller au contenu principal

Dossier arXiv cs.RO — page 3

176 articles · page 3 sur 4

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

Planification efficace en temps réel pour la robotique en essaim via un tube virtuel optimal
101arXiv cs.RO RecherchePaper

Planification efficace en temps réel pour la robotique en essaim via un tube virtuel optimal

Une équipe de chercheurs propose, dans un preprint arXiv (2505.01380v2, version 2 publiée en mai 2025), un cadre de planification de trajectoires homotopiques pour essaims de robots naviguant dans des environnements à obstacles inconnus. La méthode repose sur un concept de "tube virtuel optimal" : un corridor topologique calculé de manière centralisée, dans lequel chaque robot se déplace de façon distribuée. En exploitant la programmation multiparamétrique pour approximer les trajectoires optimales par des fonctions affines, la complexité de calcul obtenue est en O(nt), où nt désigne le nombre de paramètres de trajectoire. Ce résultat permet une replanification haute fréquence sur des processeurs embarqués à ressources limitées. Les auteurs valident leur approche par simulations et expériences physiques, sans préciser les dimensions des essaims testés ni les conditions réelles de déploiement. Le verrou adressé est structurant pour la robotique en essaim : les planificateurs réactifs offrent une fréquence de replanification élevée mais convergent vers des minima locaux, tandis que les planificateurs multi-étapes réduisent les interblocages au prix d'un coût de calcul incompatible avec les plateformes embarquées. En combinant planification centralisée homotopique et contrôle distribué, le framework se positionne comme une solution hybride crédible. Si les résultats se confirment sur des essaims de plusieurs dizaines d'agents en environnement réel, les applications sont directes : exploration de zones dangereuses, logistique autonome en entrepôt, coordination de flottes d'AMR en espaces encombrés. Les intégrateurs industriels y trouveraient un algorithme de coordination à faible empreinte calculatoire. La planification d'essaims en milieu inconnu est un domaine actif depuis une décennie, avec des contributions majeures d'ETH Zurich, MIT CSAIL et CMU. Les approches par tubes homotopiques existent depuis les années 2010 dans la planification mono-robot ; leur extension aux essaims pose des problèmes de passage à l'échelle que ce travail tente de résoudre par approximation affine. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné : le stade actuel est celui d'une preuve de concept académique. Les étapes naturelles seraient la validation sur des essaims physiques de 20 à 50 robots et la mise à disposition du code, absente de la publication.

1 source
IA stratifiée et topologique pour la coordination à longue portée (STALC)
102arXiv cs.RO 

IA stratifiée et topologique pour la coordination à longue portée (STALC)

Une équipe de chercheurs propose STALC (Stratified Topological Autonomy for Long-Range Coordination), un système de planification hiérarchique pour la coordination de flottes de robots dans des environnements réels. Publié sur arXiv (identifiant 2503.10475, quatrième révision), le travail repose sur un planificateur en graphe combinant une carte topologique avec une formulation de programmation mixte en nombres entiers (MIP) conçue pour être computationnellement efficace. Le résultat revendiqué : des plans multi-robots fortement couplés générés en quelques secondes. Pour la validation locale, STALC s'appuie sur des planificateurs à horizon glissant (receding-horizon) assurant l'évitement de collision et le contrôle de formation. Le scénario de test retenu est une mission de reconnaissance multi-robots où les agents doivent se coordonner pour traverser un environnement tout en minimisant le risque de détection par des observateurs, avec des expériences menées à la fois en simulation et sur matériel réel. L'intérêt technique tient principalement à deux points. D'abord, résoudre un MIP en quelques secondes pour des flottes de robots est loin d'être trivial : la programmation mixte en nombres entiers est NP-difficile dans le cas général, et les approches existantes peinent à passer à l'échelle au-delà de quelques agents. L'architecture stratifiée de STALC, qui sépare la planification globale topologique de l'évitement de collision local, est précisément la clé permettant cette efficacité. Ensuite, la validation sur plateforme matérielle réelle, à partir de données du monde réel pour construire les graphes, distingue ce travail des contributions purement simulées qui dominent encore la littérature MAPF (Multi-Agent Path Finding). Pour un intégrateur ou un décideur B2B, cela signifie une architecture potentiellement déployable dans des contextes de sécurité, d'inspection ou de logistique d'entrepôt dense. STALC s'inscrit dans un champ de recherche actif où s'affrontent plusieurs paradigmes : les méthodes CBS (Conflict-Based Search) et ECBS côté planification centralisée, les approches décentralisées à base de champs de potentiel ou de ORCA pour l'évitement local. L'originalité de STALC est de proposer une hiérarchie explicite entre ces niveaux plutôt que de les traiter séparément. Le choix d'un scénario de reconnaissance à faible signature suggère une orientation défense ou applications critiques, cohérente avec l'intérêt croissant des agences de recherche pour les essaims robotiques autonomes. La quatrième révision du preprint indique un travail en cours de consolidation, probablement en route vers une soumission dans une conférence de référence comme ICRA ou IROS.

RecherchePaper
1 source
Système de navigation vision-langage incarné et déployable avec cognition hiérarchique et exploration contextuelle
103arXiv cs.RO 

Système de navigation vision-langage incarné et déployable avec cognition hiérarchique et exploration contextuelle

Une équipe de chercheurs a publié en avril 2026 sur arXiv (référence 2604.21363) un système de navigation embodied par vision et langage (VLN) conçu pour fonctionner en temps réel sur des plateformes robotiques embarquées aux ressources limitées. L'architecture repose sur trois modules asynchrones découplés : un module de perception temps-réel pour l'acquisition continue de l'environnement, un module d'intégration mémorielle pour l'agrégation spatiale et sémantique, et un module de raisonnement pour la prise de décision de haut niveau via un modèle vision-langage (VLM). Le coeur du système est un graphe de mémoire cognitive construit de façon incrémentale, décomposé en sous-graphes pour alimenter le VLM sans saturer la mémoire embarquée. Pour optimiser l'exploration, les auteurs reformulent le problème comme un Weighted Traveling Repairman Problem (WTRP) contextuel, qui minimise le temps d'attente pondéré des points de vue candidats. Les expériences portent à la fois sur des environnements simulés et sur des plateformes robotiques réelles, avec des résultats supérieurs aux approches VLN existantes en taux de succès et en efficacité de navigation. Ce travail s'attaque directement à une tension structurelle du domaine : les systèmes VLN les plus performants exigent des capacités de raisonnement qui restent typiquement hors de portée d'un matériel embarqué. Le découplage en modules asynchrones est une réponse architecturale concrète à cette contrainte, permettant de maintenir une boucle de perception à faible latence sans bloquer le raisonnement lourd. La démonstration sur hardware contraint réel, pas seulement en simulation, est le point de validation critique : elle réduit l'argument du sim-to-real gap qui frappe la majorité des publications académiques sur les VLA et VLN. Pour un intégrateur ou un décideur industriel, cela suggère que des robots capables de suivre des instructions en langage naturel dans des environnements non-structurés pourraient être déployés sans infrastructure GPU dédiée. La navigation embodied par vision et langage est un champ en pleine consolidation, porté par les progrès des VLM multimodaux (GPT-4o, LLaVA, InternVL) et par la disponibilité de benchmarks comme R2R ou REVERIE. La plupart des approches récentes sacrifient soit la généralisation soit la vitesse d'inférence pour tenir sur un robot réel. Ce papier s'inscrit dans un courant de recherche qui cherche à rendre ces systèmes embarquables sans fine-tuning massif, une direction que suivent également des équipes comme celles de CMU, ETH Zurich ou du LAAS-CNRS côté européen. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés publics et une intégration dans des plateformes commerciales comme Boston Dynamics Spot ou des AMR industriels, mais ces éléments ne sont pas annoncés dans l'abstract.

UEDes équipes européennes comme ETH Zurich et le LAAS-CNRS travaillent sur des directions similaires, mais ce papier n'implique pas directement d'acteurs ou de déploiements en France/UE.

IA physiqueOpinion
1 source
Correspondance par pont de Schrödinger rectifié pour la navigation visuelle en peu d'étapes
104arXiv cs.RO 

Correspondance par pont de Schrödinger rectifié pour la navigation visuelle en peu d'étapes

Une équipe de chercheurs a soumis sur arXiv (ref. 2604.05673, v2, avril 2026) un cadre baptisé Rectified Schrödinger Bridge Matching (RSBM), visant à réduire drastiquement le coût d'inférence des politiques génératives de navigation visuelle. Les modèles basés sur la diffusion ou les ponts de Schrödinger (SB) capturent fidèlement les distributions d'actions multimodales mais exigent dix étapes d'intégration ou plus, incompatibles avec le contrôle robotique temps-réel. RSBM unifie les SB standard (ε=1, entropie maximale) et le transport optimal déterministe (ε→0, comme en Conditional Flow Matching) via un unique paramètre de régularisation entropique ε. Les auteurs démontrent que le champ de vitesse conditionnel conserve la même forme fonctionnelle sur tout le spectre ε (un seul réseau suffit pour toutes les intensités de régularisation) et que réduire ε diminue linéairement la variance du champ, stabilisant l'intégration ODE à pas larges. Résultat : 94 % de similarité cosinus et 92 % de taux de réussite en 3 étapes seulement, sans distillation ni entraînement multi-étapes. Ce résultat s'attaque directement au goulot d'étranglement des politiques VLA (Vision-Language-Action) en déploiement industriel. Les architectures de diffusion embarquées dans les robots manipulateurs et humanoïdes actuels (π0 de Physical Intelligence, GR00T N2 de NVIDIA) plafonnent leur fréquence de contrôle à cause du nombre d'étapes de dénoising requises. Passer de dix à trois étapes sans distillation, technique qui ajoute un cycle d'entraînement coûteux et instable, ouvre la voie à des politiques embarquables sur matériel edge standard sans GPU serveur dédié. Limite à noter : les expériences portent sur des benchmarks de navigation visuelle simulés ; le transfert sim-to-real n'est pas validé dans cette publication. RSBM s'inscrit dans la continuité de travaux sur l'accélération du sampling génératif : Rectified Flow (Liu et al., 2022), Consistency Models, et l'application des ponts de Schrödinger au contrôle robotique étudiée par des groupes à Stanford et CMU. Face au Conditional Flow Matching de Meta AI, rapide mais moins expressif face aux distributions fortement multimodales, RSBM revendique un équilibre théoriquement fondé entre vitesse et couverture multimodale. Aucune implémentation open-source ni déploiement hardware n'est annoncé à ce stade. Les suites probables incluent une validation sur tâches de manipulation réelles et une comparaison directe avec des méthodes de distillation rapide comme le Shortcut Model de Physical Intelligence.

RechercheOpinion
1 source
Conception conjointe pilotée par la tâche de systèmes multi-robots hétérogènes
105arXiv cs.RO 

Conception conjointe pilotée par la tâche de systèmes multi-robots hétérogènes

Une équipe de recherche a publié sur arXiv (référence 2604.21894) un cadre formel pour la co-conception pilotée par les tâches de systèmes multi-robots hétérogènes. Le problème adressé est fondamental : concevoir une flotte robotique implique de prendre simultanément des décisions sur la morphologie des robots, la composition de la flotte (nombre, types), et les algorithmes de planification, trois domaines traditionnellement traités séparément. Le framework proposé repose sur la théorie de co-conception monotone, qui permet de modéliser robots, flottes, planificateurs et évaluateurs comme des problèmes de conception interconnectés avec des interfaces bien définies, indépendantes des implémentations spécifiques et des tâches cibles. Des séries d'études de cas illustrent l'intégration de nouveaux types de robots, de profils de tâches variés, et d'objectifs de perception probabilistes dans un seul pipeline d'optimisation. L'intérêt industriel tient à la promesse d'optimisation jointe avec garanties d'optimalité, ce que les approches séquentielles actuelles ne peuvent offrir. Pour un intégrateur système ou un COO déployant une flotte AMR dans un entrepôt, la question n'est jamais "quel robot est le meilleur seul" mais "quelle combinaison robot + planificateur + composition de flotte minimise le temps de cycle global sous contrainte budgétaire". Ce framework rend ce raisonnement formellement traçable, et les auteurs soulignent qu'il fait émerger des alternatives de conception non-intuitives que les méthodes ad hoc auraient manquées. La scalabilité et l'interprétabilité revendiquées restent à valider sur des déploiements réels à grande échelle, les résultats publiés restent des études de cas académiques. Ce travail s'inscrit dans un courant de recherche en robotique qui cherche à dépasser les silos disciplinaires : d'un côté la co-conception morphologique (ex : travaux MIT CSAIL sur la co-optimisation structure/contrôle), de l'autre les frameworks de planification multi-agents (ROS 2 Nav2, MoveIt Task Constructor). La théorie de co-conception monotone, développée notamment par Andrea Censi et Luca Carlone, constitue la base théorique. Ce papier étend cette base aux systèmes hétérogènes à grande échelle. Aucune timeline de transfert industriel n'est annoncée, mais le framework pourrait intéresser les éditeurs de logiciels de fleet management (Exotec, Intrinsic/Google, Siemens Xcelerator) comme couche de raisonnement amont à la configuration de flotte.

UEExotec (Bordeaux) et d'autres éditeurs européens de logiciels de gestion de flottes AMR pourraient exploiter ce framework comme couche de raisonnement amont pour l'optimisation conjointe morphologie/composition/planification, mais aucun transfert industriel n'est annoncé.

RecherchePaper
1 source
SLAM comme problème de contrôle stochastique à information partielle : solutions optimales et approximations rigoureuses
106arXiv cs.RO 

SLAM comme problème de contrôle stochastique à information partielle : solutions optimales et approximations rigoureuses

Des chercheurs présentent sur arXiv (réf. 2604.21693, avril 2026) un cadre théorique qui reformule le SLAM actif comme un problème de contrôle stochastique optimal sous information partielle. Le SLAM (Simultaneous Localization and Mapping) désigne la capacité d'un robot à construire une carte de son environnement tout en s'y localisant simultanément, un problème fondamental en robotique mobile. Dans sa version "active", le robot doit en plus décider quels mouvements effectuer pour maximiser la qualité de sa carte et la précision de sa pose. Les auteurs formalisent ce problème sous la forme d'un processus de décision markovien partiellement observable (POMDP) non standard, intégrant de façon rigoureuse les modèles de mouvement, de perception et de représentation de la carte. Ils introduisent une nouvelle fonction de coût d'exploration qui encode explicitement la géométrie de l'état du robot au moment d'évaluer les actions de collecte d'information. À partir de cette formulation, ils dérivent des solutions approchées quasi-optimales avec garanties formelles. Une étude numérique extensive valide l'approche en utilisant des algorithmes d'apprentissage par renforcement standards pour apprendre ces politiques. L'intérêt principal de ce travail réside dans la rigueur théorique qu'il apporte à un domaine dominé par des heuristiques empiriques. La plupart des approches d'exploration autonome actuelles, qu'elles reposent sur les frontières d'exploration (frontier-based), la maximisation d'information mutuelle, ou des métriques ad hoc, manquent de garanties formelles sur la qualité des solutions produites. En reformulant le problème dans le cadre du contrôle stochastique optimal et des POMDPs, les auteurs fournissent des conditions de régularité et des bornes d'approximation qui permettent de certifier la quasi-optimalité des politiques apprises. Pour les équipes R&D travaillant sur des AMR (robots mobiles autonomes), des drones cartographiques ou des robots d'inspection industrielle, cette approche ouvre la voie à des algorithmes d'exploration dont le comportement est formellement auditable, ce qui est non trivial dans les contextes de certification. Le SLAM est un problème étudié depuis les années 1990, avec des approches classiques basées sur les filtres de Kalman étendus (EKF-SLAM) ou les filtres particulaires (FastSLAM), puis des méthodes graphiques comme ORB-SLAM3 ou RTAB-Map qui dominent aujourd'hui les implémentations industrielles. Les approches neuronales, comme les NeRF et Gaussian Splatting adaptés au SLAM temps réel, émergent en parallèle. Ce papier, encore préprint non évalué par les pairs, ne remplace pas ces implémentations mais propose un cadre décisionnel qui les surplombe. Les laboratoires actifs sur ces questions incluent MIT CSAIL, ETH Zurich (Autonomous Systems Lab) et l'équipe de Joan Solà. Les prochaines étapes naturelles seraient une validation expérimentale sur robot réel et une extension vers les environnements dynamiques, deux points non traités dans cette version arXiv.

RecherchePaper
1 source
Planification VLA à horizon étendu par conditionnement sur traces
107arXiv cs.RO 

Planification VLA à horizon étendu par conditionnement sur traces

Une équipe de chercheurs a publié en avril 2026 LoHo-Manip (arXiv:2604.21924), un cadre modulaire conçu pour étendre les politiques VLA (vision-language-action) aux tâches de manipulation longue durée. Le coeur du système repose sur une architecture découplée : un VLM gestionnaire de tâches et un VLA exécuteur distincts. Le gestionnaire opère selon un principe de planification à horizon glissant (receding-horizon) : à chaque étape, il prédit un plan résiduel combinant une séquence de sous-tâches avec une séparation explicite "fait / restant" comme mémoire légère en langage naturel, et une trace visuelle, une trajectoire 2D de points-clés indiquant au bras où se déplacer et quel objet approcher. L'exécuteur VLA est ensuite conditionné sur cette trace rendue pour produire ses commandes motrices. Les expériences couvrent la planification incarnée, le raisonnement longue portée, la prédiction de trajectoire et la manipulation bout-en-bout, à la fois en simulation et sur un robot Franka réel, avec des gains annoncés en taux de succès, robustesse et généralisation hors distribution. Les métriques précises ne sont pas communiquées dans le préprint. Ce qui distingue LoHo-Manip des approches VLA classiques, c'est le bouclage implicite sans logique de récupération codée en dur : lorsqu'une sous-tâche échoue, elle reste dans le plan résiduel prédit au pas suivant, et la trace visuelle se met à jour automatiquement. Les modèles VLA actuels comme pi0 (Physical Intelligence) ou OpenVLA peinent sur les séquences multi-étapes en raison de l'accumulation d'erreurs d'exécution ; LoHo-Manip traite ce problème en transformant la prise de décision longue portée en une série de contrôles locaux guidés par trace. Pour un intégrateur industriel, cela ouvre la voie à des chaînes de manipulation complexes (assemblage séquentiel, tri multi-objets) sans reprogrammation manuelle à chaque point de défaillance, ce que les approches purement symboliques ne permettent pas sans pipeline rigide. Le problème de la manipulation longue portée est un obstacle structurel de la robotique VLA depuis l'émergence des modèles fondationnels en action, notamment après les travaux RT-2 de Google DeepMind (2023) et pi0 de Physical Intelligence (2024). La plupart des solutions actuelles combinent un planificateur symbolique haut niveau avec des primitives de bas niveau, au prix d'une rigidité importante face aux perturbations. LoHo-Manip adopte une voie intermédiaire en ancrant le plan dans une modalité visuelle légère (la trace 2D) plutôt que dans des primitives figées, ce qui est comparable dans l'esprit aux travaux de trajecto-conditioned diffusion de chez Nvidia (GR00T) ou de Cobot Magic. Il s'agit pour l'instant d'un preprint non relu par les pairs, validé sur un seul robot académique (Franka 7 DOF), sans déploiement industriel ni pilote annoncé. Les prochaines étapes crédibles passeraient par une validation sur des manipulateurs à plus haute redondance et des environnements moins structurés.

IA physiqueOpinion
1 source
ZipFold : des actionneurs modulaires pour des robots adaptatifs à grande échelle
108arXiv cs.RO 

ZipFold : des actionneurs modulaires pour des robots adaptatifs à grande échelle

Des chercheurs ont publié en avril 2026 un préprint arXiv (référence 2604.05260v2) présentant ZipFold, un actionneur modulaire capable de transformer simultanément sa taille et sa rigidité par plissage et verrouillage de bandelettes plastiques imprimées en 3D. Le principe repose sur l'enroulement de ces bandelettes flexibles en poutres à section carrée : en position compacte, la structure reste souple et peu encombrante ; en position déployée, elle atteint un état quasi-rigide. La transition est continue, réversible, et ne requiert ni mécanisme hydraulique ni pneumatique. Un prototype intégrant quatre de ces modules a été démontré sous la forme d'un robot marcheur adaptatif capable de modifier dynamiquement sa démarche en ajustant la rigidité de ses membres en temps réel. Le principal intérêt de ZipFold réside dans sa généricité : contrairement aux actionneurs à rigidité variable existants, généralement conçus sur-mesure pour un usage précis et difficilement réutilisables dans un autre contexte, cette brique modulaire peut être assemblée en configurations arbitraires. La fabrication par impression 3D de plastique flexible abaisse le seuil d'entrée pour les équipes de recherche et les petits intégrateurs, sans nécessiter de chaîne d'approvisionnement spécialisée. Pour des systèmes robotiques opérant dans des environnements changeants (logistique, inspection, rééducation), la capacité à modifier le comportement mécanique sans reconfiguration matérielle représente un avantage opérationnel concret. Il faut toutefois tempérer : le papier est un préprint académique sans benchmarks comparatifs publiés face aux alternatives existantes, et les performances annoncées (rigidité atteinte, charge utile, nombre de cycles) restent à valider sur des durées et des conditions représentatives. Le problème de la rigidité variable mobilise la communauté robotique depuis des décennies : les approches pneumatiques (jamming de particules, muscles McKibben), les alliages à mémoire de forme (SMA) et les câbles antagonistes dominent aujourd'hui, mais chacun achoppe sur des compromis entre vitesse de commutation, encombrement et complexité d'intégration. ZipFold se positionne sur le créneau de la modularité fabricatoire, un espace encore peu occupé par des solutions génériques et bas-coût. Le préprint ne mentionne ni partenaire industriel ni calendrier de transfert technologique ; les prochaines étapes attendues incluent des tests de charge, des essais en endurance cyclique, ainsi qu'une démonstration sur des morphologies plus complexes que le marcheur quadrimodulaire actuel.

RecherchePaper
1 source
JoyAI-RA 0.1 : un modèle de base pour l'autonomie robotique
109arXiv cs.RO 

JoyAI-RA 0.1 : un modèle de base pour l'autonomie robotique

Des chercheurs ont publié le 28 avril 2026 sur arXiv un nouveau modèle de fondation baptisé JoyAI-RA 0.1, conçu pour doter les robots d'une autonomie généralisable dans des environnements réels et variés. Ce modèle de type vision-langage-action (VLA) s'appuie sur un cadre d'entraînement multi-sources et multi-niveaux inédit : il combine des données issues du web, des vidéos en vue subjective de manipulations humaines à grande échelle, des trajectoires générées par simulation, et des données collectées sur de vrais robots. Selon les résultats présentés, JoyAI-RA surpasse les méthodes les plus avancées sur des benchmarks en simulation comme en environnement réel, particulièrement sur des tâches variées nécessitant une capacité de généralisation. L'enjeu central de ce travail est la généralisation inter-robots, un problème récurrent dans le domaine : les modèles entraînés sur un type de robot peinent à s'adapter à d'autres architectures mécaniques ou capteurs différents. JoyAI-RA propose une unification explicite des espaces d'action, ce qui lui permet de transférer efficacement des comportements appris depuis des vidéos de manipulation humaine vers le contrôle robotique. Ce pont entre geste humain et mouvement machine est particulièrement prometteur pour réduire les coûts de collecte de données et accélérer le déploiement de robots polyvalents dans des contextes industriels, logistiques ou domestiques. La robotique autonome bute depuis des années sur deux obstacles structurels : la faible diversité des jeux de données disponibles et l'impossibilité de réutiliser des comportements appris d'un robot à l'autre. JoyAI-RA s'inscrit dans une tendance de fond qui voit émerger des modèles de fondation généralistes pour la robotique, à l'image de RT-2 de Google DeepMind ou d'OpenVLA. La particularité de cette approche réside dans l'intégration massive de vidéos de manipulation humaine comme source de supervision implicite, une stratégie qui contourne partiellement la rareté des données robotiques annotées. La publication en version 0.1 suggère que l'équipe, vraisemblablement liée à l'écosystème chinois au vu du nom JoyAI, entend faire évoluer ce modèle rapidement.

IA physiqueOpinion
1 source
Avantages de la bio-inspiration économique à l'ère de la surparamétrisation
110arXiv cs.RO 

Avantages de la bio-inspiration économique à l'ère de la surparamétrisation

Des chercheurs ont publié sur arXiv (arXiv:2604.20365) une étude empirique comparant deux grandes familles de contrôleurs pour robots : les générateurs de patterns centraux (CPG), inspirés de la neurologie animale, et les perceptrons multicouches (MLP), omniprésents en apprentissage automatique. L'expérience soumet un robot à proprioception limitée à des protocoles d'optimisation variés, en faisant varier systématiquement la taille des espaces de paramètres sous deux régimes d'entraînement, évolutionnaire et par renforcement, et en mesurant les performances sur plusieurs fonctions de récompense. Le résultat central contredit une intuition répandue dans le domaine : plus de paramètres ne signifie pas de meilleures performances. Dans les contextes où les espaces d'entrée et de sortie sont restreints et où les gains maximaux sont bornés, les architectures légères, MLP peu profonds et CPG densément connectés, surpassent systématiquement les MLP profonds et les architectures Actor-Critic du renforcement. Pour quantifier cet écart, les auteurs introduisent une métrique inédite baptisée "Parameter Impact", qui mesure la proportion de paramètres supplémentaires se traduisant effectivement en gains de performance. Les résultats montrent que les paramètres additionnels exigés par les méthodes de renforcement ne produisent aucun bénéfice mesurable, plaidant en faveur des stratégies évolutionnaires sur ce type de tâche. Ce travail s'inscrit dans un débat de fond qui traverse la robotique et l'IA : l'ère des grands modèles a installé un réflexe de surparamétrage, mais cette logique ne se transfère pas uniformément à tous les problèmes. Les CPG sont une approche bio-inspirée classique, calquée sur les circuits neuronaux responsables de la locomotion animale, et longtemps délaissée au profit des réseaux profonds. L'étude rappelle que pour des morphologies robotiques contraintes, la frugalité computationnelle peut être une force, et non un compromis. Ces résultats ouvrent des pistes concrètes pour la conception de contrôleurs embarqués efficaces sur des robots à faibles ressources, un enjeu central pour la robotique mobile et les systèmes autonomes déployés hors datacenter.

RechercheOpinion
1 source
Cadre cinématique pour évaluer les configurations de pincement en robotique, sans modèle d'objet ni de contact
111arXiv cs.RO 

Cadre cinématique pour évaluer les configurations de pincement en robotique, sans modèle d'objet ni de contact

Des chercheurs ont publié sur arXiv (référence 2604.20692) un cadre d'évaluation cinématique permettant d'analyser les configurations de pincement des mains robotiques sans avoir recours à des modèles d'objets ni à des modèles de force de contact. La méthode repose sur le calcul de l'espace de travail atteignable par chaque bout de doigt à partir des configurations articulaires, puis sur la détection de configurations de pincement réalisables en évaluant les relations géométriques entre les paires de bouts de doigts. Quatre structures cinématiques différentes de main ont été comparées afin d'examiner leur influence sur les configurations de pincement possibles. Pour les concepteurs de mains robotiques, cet apport est concret : il devient possible d'évaluer la dextérité de préhension d'un prototype dès les premières phases de conception, sans avoir à modéliser les objets à saisir ni à simuler les forces de contact. Ces étapes, traditionnellement coûteuses en temps de calcul et en données, constituaient un frein majeur à l'itération rapide sur les designs. En permettant une évaluation fondée uniquement sur la structure cinématique de la main, le framework ouvre la voie à des cycles de développement plus courts et à une comparaison objective entre différentes architectures mécaniques. La robotique de manipulation traverse une période d'intense compétition, portée par l'essor des robots humanoïdes et des bras industriels autonomes. Les mains robotiques dotées d'une dextérité fine restent l'un des grands défis non résolus du secteur, que ce soit pour des usages industriels ou médicaux. Les méthodes d'évaluation existantes supposent généralement que l'objet à manipuler est connu à l'avance, ce qui les rend peu utiles lors des premières étapes de conception matérielle. Ce travail s'inscrit dans un courant de recherche visant à abstraire l'évaluation de la dextérité, et pourrait à terme être intégré dans des outils de conception assistée par ordinateur pour accélérer le développement de nouvelles générations de mains robotiques polyvalentes.

HumanoïdesActu
1 source
Optimisation cinématique des rapports de longueur des phalanges dans les mains robotiques par dextérité potentielle
112arXiv cs.RO 

Optimisation cinématique des rapports de longueur des phalanges dans les mains robotiques par dextérité potentielle

Des chercheurs ont publié sur arXiv (référence 2604.20686) un cadre méthodologique permettant d'optimiser les proportions des phalanges dans les mains robotiques à cinq doigts, sans avoir à définir au préalable des objets précis ou des tâches de manipulation. Le système repose sur quatre métriques d'évaluation : la manipulabilité globale, le volume de l'espace de travail atteignable, le volume d'espace de travail partagé entre les doigts, et la sensibilité des extrémités. L'espace de travail est discrétisé via une représentation en voxels, et les mouvements articulaires sont découpés à intervalles uniformes pour permettre une évaluation systématique. L'optimisation s'applique séparément au pouce et aux quatre autres doigts, en excluant les combinaisons de conception qui ne génèrent pas de chevauchement d'espace de travail entre les doigts. Ce travail répond à un problème concret du développement robotique : jusqu'ici, évaluer quantitativement l'impact des ratios de longueur des phalanges sur la dextérité nécessitait de simuler des scénarios de manipulation spécifiques, ce qui rendait la phase de conception longue et peu généralisable. En proposant une fonction objectif pondérée applicable dès la phase de conception cinématique, les auteurs offrent aux ingénieurs un outil de décision précoce, indépendant des cas d'usage. Les résultats montrent que chaque phalange ne contribue pas de manière égale à la dextérité globale, et que le choix des coefficients de pondération ne conduit pas mécaniquement à maximiser chaque indicateur individuellement, en raison de la distribution non uniforme des mesures dans l'espace de conception. La conception des mains robotiques multi-doigts constitue l'un des défis persistants de la robotique humanoïde et de la manipulation industrielle. Des acteurs comme Boston Dynamics, Shadow Robot ou Agility Robotics investissent massivement dans la dextérité des effecteurs, qui conditionne directement l'utilisabilité des robots dans des environnements non structurés. Ce cadre méthodologique, en analysant systématiquement les compromis entre accessibilité, dextérité et contrôlabilité, pourrait accélérer les cycles de prototypage et s'imposer comme référence dans la conception cinématique des mains robotiques de nouvelle génération.

HumanoïdesPaper
1 source
Estimation de la présence humaine par vision pour améliorer la sécurité et l'efficacité des AMR en entrepôt industriel
113arXiv cs.RO 

Estimation de la présence humaine par vision pour améliorer la sécurité et l'efficacité des AMR en entrepôt industriel

Des chercheurs ont publié sur arXiv (référence 2604.18627) un système temps réel permettant à un robot mobile autonome (AMR) d'estimer, via une unique caméra RGB, si un opérateur humain à proximité a conscience de sa présence. La méthode combine deux modules : un estimateur de pose humaine 3D ("3D pose lifting") qui reconstruit la position du corps dans l'espace, et un module d'estimation d'orientation de la tête qui calcule le cône de vision du travailleur. Si l'humain est orienté vers le robot et se trouve dans ce cône, le système le catégorise comme "conscient de l'AMR" ; dans le cas contraire, le robot adopte un comportement de précaution. L'ensemble du pipeline a été validé sur données synthétiques dans NVIDIA Isaac Sim, sans validation sur environnement physique réel annoncée à ce stade. L'intérêt industriel de cette approche réside dans l'inefficacité chronique des systèmes actuels : les AMRs déployés aujourd'hui traitent tout humain comme un obstacle dynamique générique, ce qui entraîne des ralentissements ou détours systématiques, même lorsque l'opérateur a clairement vu le robot et s'est écarté de sa trajectoire. En distinguant les travailleurs attentifs des travailleurs inattentifs, le système permettrait théoriquement d'augmenter les cadences opérationnelles sans dégrader la sécurité. Pour les intégrateurs et les COO industriels, c'est une piste concrète pour réduire les temps de cycle dans des environnements à forte densité humaine. La validation reste cependant limitée à des données simulées, ce qui laisse entier le problème du sim-to-real gap pour les cas limites : occlusions partielles, éclairage variable, postures atypiques. Ce travail s'inscrit dans un contexte de forte croissance des flottes AMR dans la logistique mondiale, porté par des acteurs comme MiR (acquis par Teradyne), Locus Robotics, Geek+, ou côté français Exotec dont les robots Skypod évoluent dans des allées partagées avec des opérateurs humains. Les approches concurrentes misent généralement sur des systèmes LIDAR multicouche ou des zones de sécurité paramétrables conformes à la norme ISO 3691-4, sans modélisation explicite de l'attention humaine. La prochaine étape naturelle serait une validation sur données réelles et une intégration dans une stack de navigation type ROS 2 Nav2, mais ni timeline ni partenariat industriel ne sont mentionnés dans ce preprint.

UEDirectement pertinent pour Exotec (Skypod) qui opère des flottes AMR en allées partagées avec des opérateurs, mais aucune collaboration ni validation sur environnement réel n'est annoncée à ce stade.

IndustrielPaper
1 source
Évaluation de l'inférence d'affordance sémantique par VLM pour des morphologies robotiques non humanoïdes
114arXiv cs.RO 

Évaluation de l'inférence d'affordance sémantique par VLM pour des morphologies robotiques non humanoïdes

Une équipe de chercheurs publie sur arXiv (2604.19509) une évaluation empirique des modèles vision-langage (VLM) pour l'inférence d'affordances sur des robots à morphologie non humanoïde. L'"affordance" désigne ici la capacité d'un modèle à déterminer quelles actions sont physiquement réalisables par un robot donné face à un objet spécifique. Les auteurs ont constitué un jeu de données hybride combinant des annotations réelles de relations affordance-objet et des scénarios synthétiques générés par VLM, couvrant plusieurs catégories d'objets et plusieurs types de morphologies robotiques. Les résultats montrent une généralisation prometteuse aux formes non humanoïdes, mais des performances très variables selon les domaines d'objets. Le constat central est un schéma systématique de faible taux de faux positifs associé à un fort taux de faux négatifs, révélant que les VLM adoptent des prédictions trop conservatrices. Ce biais est particulièrement prononcé pour les outils inédits et les manipulations non conventionnelles. Pour les intégrateurs qui envisagent d'utiliser les VLM comme couche de planification sémantique, ce résultat est structurellement important. Le biais conservateur offre un avantage de sécurité intrinsèque, les robots n'entreprenant pas d'actions impossibles ou dangereuses, mais le taux élevé de faux négatifs freine l'exploitation réelle : le système refuse des tâches qu'il pourrait pourtant accomplir. Pour un architecte de système ou un COO industriel, cela confirme qu'un VLM seul ne peut pas servir de module d'affordance universel pour des cobots ou des AMR (robots mobiles autonomes) aux morphologies spécifiques. Des couches complémentaires, simulation physique ou vérification cinématique, restent nécessaires pour corriger ce défaut sans sacrifier la sécurité. La recherche sur les affordances VLM s'est construite massivement sur des corpus centrés sur l'interaction humain-objet, laissant les robots non humanoïdes structurellement sous-représentés. Des architectures VLA (Vision-Language-Action) comme pi-zero de Physical Intelligence ou GR00T N2 de NVIDIA ont été évaluées principalement sur des tâches de manipulation humain-like. Cette étude pointe un enjeu distinct pour des plateformes comme Spot de Boston Dynamics ou ANYmal d'ANYbotics, dont les effecteurs et degrés de liberté (DOF) diffèrent fondamentalement de la main humaine. Les auteurs proposent des architectures hybrides et des jeux de données morpho-spécifiques comme prochaines étapes pour réduire le biais conservateur tout en préservant les faibles taux de faux positifs, seul acquis de sécurité clairement démontré.

UELes intégrateurs européens déployant des AMR ou cobots non humanoïdes (ANYmal d'ANYbotics, Spot) doivent anticiper des couches de vérification cinématique complémentaires aux VLM avant tout déploiement autonome en planification sémantique.

RechercheOpinion
1 source
Régulateur quadratique linéaire latent pour les tâches de contrôle robotique
115arXiv cs.RO 

Régulateur quadratique linéaire latent pour les tâches de contrôle robotique

Des chercheurs présentent LaLQR (Latent Linear Quadratic Regulator), une méthode de contrôle robotique qui projette l'espace d'états d'un système non-linéaire vers un espace latent dans lequel la dynamique est linéaire et la fonction de coût est quadratique. Cette reformulation permet d'appliquer un LQR classique, résolu analytiquement et peu coûteux en calcul, là où un MPC non-linéaire standard serait requis. Le modèle de projection est appris conjointement par imitation d'un contrôleur MPC de référence. Les expériences sur des tâches de contrôle robotique montrent une meilleure efficacité computationnelle et une meilleure généralisation face aux baselines comparées. L'enjeu est direct pour les équipes de contrôle embarqué : le MPC (Model Predictive Control) reste une référence pour la qualité de trajectoire et la gestion de contraintes, mais son coût computationnel constitue un frein réel sur des plateformes à ressources limitées exigeant des fréquences de boucle élevées. LaLQR propose une alternative apprise qui conserve la structure d'un problème d'optimisation optimal tout en le rendant analytiquement soluble à chaque pas de temps. Si cette approche se confirme à plus grande échelle, elle pourrait réduire la dépendance à des processeurs haute performance dans les applications de manipulation et de locomotion. Cette recherche s'inscrit dans un courant actif combinant apprentissage par imitation et contrôle optimal classique pour contourner le mur computationnel du MPC non-linéaire. Des approches concurrentes incluent les neural MPC avec différentiation automatique et les architectures récurrentes pour la modélisation de dynamiques complexes. LaLQR introduit une piste distincte fondée sur la linéarisation dans l'espace latent, dont l'applicabilité à des systèmes à haute dimensionnalité, comme les manipulateurs multi-DOF ou les humanoïdes, reste à démontrer hors contexte académique. L'article est disponible en version 3 sur arXiv (2407.11107), ce qui suggère des révisions successives mais aucun déploiement industriel annoncé à ce stade.

RecherchePaper
1 source
Mask World Model : prédire l'essentiel pour un apprentissage robuste des politiques robotiques
116arXiv cs.RO 

Mask World Model : prédire l'essentiel pour un apprentissage robuste des politiques robotiques

Des chercheurs ont publié sur arXiv (réf. 2604.19683) le Mask World Model (MWM), une architecture de world model pour l'apprentissage de politiques robotiques robustes. Contrairement aux approches dominantes qui entraînent des modèles génératifs sur de la vidéo RGB, MWM prédit l'évolution de masques sémantiques, des représentations géométriques des objets en scène, à l'aide d'une architecture de diffusion vidéo. Une tête de politique basée sur la diffusion est intégrée en aval pour un contrôle bout-en-bout. Évalué sur les benchmarks de simulation LIBERO et RLBench, MWM surpasse significativement les world models RGB de l'état de l'art. Un protocole de robustesse par élagage aléatoire de tokens et des expériences en conditions réelles confirment la résilience du modèle face à la perte partielle d'information visuelle. Le problème ciblé est structurel : les world models entraînés à prédire des pixels RGB mémorisent des corrélations parasites liées aux arrière-plans dynamiques, aux variations d'éclairage ou aux textures changeantes. Ces distracteurs produisent des politiques fragiles qui échouent hors distribution, phénomène central du "demo-to-real gap" qui freine le déploiement industriel des robots apprenants. En contraignant le modèle à opérer sur des masques géométriques plutôt que sur des pixels bruts, MWM impose un goulot d'information qui force la représentation interne à capturer ce qui importe réellement pour la manipulation : dynamiques physiques, relations de contact, géométrie des objets. C'est une contribution méthodologique notable dans le débat sur ce que les world models doivent apprendre pour être fiables à l'échelle opérationnelle. Les world models pour la robotique ont émergé comme paradigme dominant ces deux dernières années, portés par des architectures comme UniSim, Dreamer, ou les VLA récents de Physical Intelligence (pi-0), Google DeepMind (GR00T N2) et Figure Robotics, qui misent presque tous sur la fidélité de reconstruction RGB. MWM propose une alternative centrée sur l'abstraction géométrique, un positionnement distinct dans cet écosystème en pleine consolidation. Il convient de noter qu'il s'agit d'une prépublication non encore relue par des pairs, et que les expériences en conditions réelles restent limitées en échelle et en diversité de tâches. Les suites naturelles incluent une validation sur des manipulateurs industriels en environnement non contrôlé, étape que les auteurs n'ont pas encore franchie.

RechercheOpinion
1 source
ExpertGen : apprentissage de politiques expertes par transfert simulation-réel à partir de comportements imparfaits
117arXiv cs.RO 

ExpertGen : apprentissage de politiques expertes par transfert simulation-réel à partir de comportements imparfaits

ExpertGen est un framework de recherche publié sur arXiv (2603.15956) qui automatise l'apprentissage de politiques de manipulation robotique en simulation pour en faciliter le transfert vers du matériel réel. Le système initialise une politique de diffusion à partir de démonstrations imparfaites, générées par un grand modèle de langage ou fournies manuellement, puis applique du renforcement pour l'affiner sans jamais modifier les poids du modèle préentraîné. L'optimisation porte uniquement sur le bruit initial de la diffusion, ce qui maintient l'exploration dans des trajectoires cohérentes avec le comportement humain, même avec des récompenses binaires éparses. Sur les benchmarks publiés, ExpertGen atteint 90,5 % de succès sur des tâches d'assemblage industriel et 85 % sur des tâches de manipulation à long horizon, surpassant toutes les méthodes de référence testées. Le transfert sim-to-réel est validé par distillation DAgger : les politiques d'état apprises en simulation sont converties en politiques visuomotrices et déployées sur du matériel robotique physique. Ce résultat s'attaque directement au principal goulot d'étranglement du robot learning industriel : la collecte de données de qualité. La téléopération à grande échelle est coûteuse, lente et ne se généralise pas. ExpertGen propose une alternative crédible en utilisant des démonstrations imparfaites, y compris synthétiques, comme amorce, puis en laissant le renforcement corriger l'écart de qualité en simulation. Le fait de geler la politique de diffusion est une décision architecturale clé : elle évite le mode collapse typique du fine-tuning RL sur des politiques expressives, tout en permettant la convergence sans reward engineering manuel. Pour les intégrateurs industriels, c'est un signal concret que le sim-to-real gap sur des tâches d'assemblage n'est pas insurmontable, à condition de disposer d'un simulateur suffisamment fidèle. Ce travail s'inscrit dans la vague des politiques de diffusion pour la robotique, initiée par Diffusion Policy (Chi et al., 2023, Columbia University) et prolongée par des systèmes comme pi-zero de Physical Intelligence ou les politiques dextères développées chez Google DeepMind et NVIDIA avec GR00T N2. ExpertGen reste pour l'instant un résultat académique : les métriques de succès sont issues de benchmarks de simulation contrôlés, et le déploiement réel mentionné dans le papier est préliminaire. Aucune timeline commerciale ni partenaire industriel ne sont annoncés. Les prochaines étapes logiques incluent des tests de robustesse à des variations de capteurs et d'environnement plus sévères, ainsi qu'une intégration éventuelle avec des politiques de fondation multimodales pour généraliser au-delà des tâches d'assemblage structurées.

RechercheOpinion
1 source
UniT : vers un langage physique unifié pour l'apprentissage de politiques humain-humanoïde et la modélisation du monde
118arXiv cs.RO 

UniT : vers un langage physique unifié pour l'apprentissage de politiques humain-humanoïde et la modélisation du monde

UniT (Unified Latent Action Tokenizer via Visual Anchoring) est un framework de recherche présenté début avril 2026 sur arXiv (2604.19734), conçu pour transférer les politiques de mouvement humain directement vers des robots humanoïdes. Le problème adressé est bien documenté : l'entraînement de modèles fondation pour humanoïdes bute sur la rareté des données robotiques. UniT propose d'exploiter les vastes corpus de données égocentrées humaines existants en construisant un espace latent discret partagé entre les deux types de corps. Le mécanisme central, dit tri-branch cross-reconstruction, fonctionne en trois voies : les actions prédisent la vision pour ancrer les cinématiques aux conséquences physiques, la vision reconstruit les actions pour éliminer les biais visuels non pertinents, et une branche de fusion unifie ces modalités purifiées en tokens d'intention physique indépendants de l'embodiment. Le framework est validé sur deux usages : VLA-UniT pour l'apprentissage de politique (Vision-Language-Action), et WM-UniT pour la modélisation du monde, qui permet la génération de vidéos humanoïdes contrôlées par des données de mouvement humain brutes. Les auteurs revendiquent un transfert zero-shot de tâches et une efficacité données state-of-the-art sur benchmark de simulation et sur des déploiements réels, sans toutefois publier de métriques de déploiement chiffrées. L'enjeu central est le "cross-embodiment gap" : un humain et un robot humanoïde partagent une structure morphologique proche mais des cinématiques incompatibles (nombre de degrés de liberté, ratios de membres, actionneurs). Jusqu'ici, combler cet écart nécessitait du retargeting cinématique manuel, de la téléopération coûteuse ou de la simulation synthétique. Si UniT tient ses promesses, il ouvrirait un pipeline d'entraînement hautement scalable à coût marginal faible, puisque les données égocentrées humaines se comptent en millions d'heures. Le claim de zero-shot transfer est le plus fort de l'article, mais il convient de le nuancer : il s'appuie sur des visualisations t-SNE montrant une convergence des représentations humaine et humanoïde dans un espace partagé, ce qui est indicatif mais pas une preuve de généralisation robuste en conditions industrielles réelles. Ce travail s'inscrit dans une vague de recherche sur les modèles fondation pour humanoïdes qui mobilise simultanément Figure AI avec son modèle Helix, Physical Intelligence avec Pi-0 et Pi-0.5, et NVIDIA avec GR00T N2, tous confrontés au même goulot d'étranglement des données. L'approche par ancrage visuel de UniT se distingue des méthodes purement cinématiques comme les retargeters basés sur des squelettes (SMPLify, HumanMimic) en postulant que les conséquences visuelles du mouvement sont universelles indépendamment du corps. Le preprint ne mentionne pas d'affiliation industrielle explicite ni de calendrier de déploiement commercial, et aucun robot cible (Unitree G1, Fourier GR-1, ou autre) n'est nommé dans le résumé disponible. La prochaine étape logique serait une validation sur des benchmarks standardisés comme LIBERO ou RoboMimic, et une comparaison directe avec GR00T N2 sur des tâches dextres en environnement non contrôlé.

IA physiqueOpinion
1 source
DART : commande prédictive augmentée par apprentissage pour la manipulation bi-bras non préhensile
119arXiv cs.RO 

DART : commande prédictive augmentée par apprentissage pour la manipulation bi-bras non préhensile

Des chercheurs ont publié sur arXiv (référence 2604.17833) les travaux autour de DART, un framework bimanuel conçu pour la manipulation non préhensile d'objets posés sur un plateau. L'approche repose sur un contrôleur prédictif non linéaire (MPC) couplé à un contrôleur d'impédance par optimisation, permettant de déplacer des objets sur le plateau sans les saisir directement. Le système évalue trois stratégies de modélisation de la dynamique plateau-objet : un modèle analytique physique, un modèle par régression en ligne adaptatif en temps réel, et un modèle de dynamique entraîné par apprentissage par renforcement (RL), ce dernier offrant une meilleure généralisation sur des objets aux propriétés variées. Les évaluations ont été réalisées en simulation sur des objets de masses, géométries et coefficients de friction différents. Les auteurs revendiquent que DART constitue le premier framework dédié à ce type de tâche en configuration bimanuelle. L'intérêt technique de DART réside dans la comparaison rigoureuse des trois approches de modélisation sur des métriques concrètes : temps de stabilisation, erreur en régime permanent, effort de contrôle et généralisation. Ce benchmark interne est utile pour les équipes d'intégration robotique qui doivent choisir entre modèles physiques (précis mais rigides), adaptation en ligne (réactive mais computationnellement coûteuse) et RL (flexible mais plus difficile à certifier). L'association MPC et contrôleur d'impédance est une piste crédible pour la manipulation d'objets fragiles ou instables, un verrou important en robotique de service. Toutefois, la validation reste strictement en simulation : le passage au réel implique des défis de perception, de latence et de calibration que le papier ne traite pas encore. Ce travail s'inscrit dans un intérêt croissant pour la robotique de service en hôtellerie et restauration, où des acteurs comme Bear Robotics (Servi), Keenon Robotics ou encore Enchanted Tools (Miroki, développé en France) positionnent leurs plateformes sur des tâches de transport et de service en salle. Les approches dominantes jusqu'ici privilégient la navigation autonome avec préhension classique ; la manipulation non préhensile sur plateau reste peu explorée à l'échelle produit. La prochaine étape naturelle pour DART serait une validation sur plateforme physique, avec des bras commerciaux type Franka Research 3 ou Universal Robots, avant d'envisager une intégration dans un robot mobile de service.

UEEnchanted Tools (Miroki, France) est cité comme acteur du service robotique susceptible de bénéficier de ce type de manipulation non préhensile sur plateau, mais le travail reste en simulation sans transfert réel annoncé.

RecherchePaper
1 source
Préentraînement séparé des dynamiques directe et inverse pour un apprentissage robotique découplé
120arXiv cs.RO 

Préentraînement séparé des dynamiques directe et inverse pour un apprentissage robotique découplé

Des chercheurs ont publié le 23 avril 2026 sur arXiv un article présentant DeFI (Decoupled visual Forward and Inverse dynamics pretraining), un framework d'apprentissage pour robots généralistes qui dissocie explicitement la prédiction visuelle de la prédiction d'actions motrices. L'architecture repose sur deux modules distincts : le General Forward Dynamics Model (GFDM), pré-entraîné sur des vidéos humaines et robotiques pour anticiper l'évolution visuelle d'une scène, et le General Inverse Dynamics Model (GIDM), entraîné par auto-supervision pour inférer des "actions latentes" à partir de transitions vidéo non annotées. Les deux modules sont ensuite fusionnés dans une architecture unifiée et affinés conjointement sur des tâches cibles. Sur le benchmark CALVIN ABC-D, DeFI atteint une longueur de tâche moyenne de 4,51, un score de 51,2 % sur SimplerEnv-Fractal, et un taux de succès de 81,3 % en déploiement réel, surpassant selon les auteurs les méthodes antérieures sur chacun de ces indicateurs. L'enjeu technique central que DeFI prétend résoudre est le "sim-to-real gap" structurel propre aux modèles VLA classiques : ces derniers entraînent conjointement la prédiction d'images 2D et la génération d'actions 3D, deux objectifs dont les gradients entrent en conflit. La dissociation proposée permet surtout d'exploiter des vidéos web à grande échelle sans annotation d'actions, une ressource quasi-illimitée comparée aux datasets robotiques labellisés, rares et coûteux. Pour les intégrateurs et les équipes R&D industrielles, cela signifie potentiellement réduire le coût de collecte de données de démonstration, un goulot d'étranglement bien documenté dans le déploiement de robots manipulateurs polyvalents. DeFI s'inscrit dans une dynamique de recherche très active autour des VLA, portée notamment par Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et les travaux OpenVLA. La principale limite à évaluer ici est celle de tout papier arXiv sans validation industrielle externe : les 81,3 % en "déploiement réel" correspondent à un environnement de laboratoire contrôlé, pas à une ligne de production. Les benchmarks CALVIN et SimplerEnv sont désormais saturés par de nombreuses méthodes concurrentes, ce qui en rend l'interprétation délicate sans contexte de variance et de répétabilité. Aucun partenariat industriel ni timeline de commercialisation n'est mentionné dans l'article.

RechercheActu
1 source
Actionnement par multiplexage temporel dans les bras à tendons : conception légère et tolérance aux pannes
121arXiv cs.RO 

Actionnement par multiplexage temporel dans les bras à tendons : conception légère et tolérance aux pannes

Des chercheurs ont publié sur arXiv (référence 2504.16887) une architecture d'actionnement inédite pour bras robotiques à tendons, baptisée Time-Division Multiplexing Actuation (TDMA). Le principe emprunte au multiplexage temporel des télécommunications : plutôt que d'allouer un actionneur par degré de liberté, un seul groupe de moteurs commute séquentiellement entre les tendons via des embrayages électromagnétiques à engagement rapide, inférieurs à 0,1 seconde. Le prototype résultant, appelé MuxArm, affiche une masse propre de 2,17 kg pour une capacité de charge utile de 10 kg, soit un ratio payload/poids de structure supérieur à 4,6. La précision en bout d'effecteur est maintenue à 1 % de la longueur du bras, y compris en cas de défaillance partielle d'un servomoteur. Un réducteur à vis sans fin assure le maintien de charge en coupure d'alimentation (self-locking), et un double encodeur garantit la précision de positionnement sur le long terme. Des tests ont été conduits en espace libre, en environnement encombré et en espace confiné. Le TDMA s'attaque à un arbitrage fondamental des bras légers à tendons : réduire la masse embarquée oblige généralement à réduire le nombre d'actionneurs, ce qui compromet redondance et tolérance aux pannes. Ici, la mutualisation temporelle des moteurs permet de conserver un couple élevé tout en réduisant la charge sur les tendons jusqu'à 50 % par rapport aux méthodes conventionnelles, grâce à un algorithme de planification trajectoire en espace d'actionnement. Pour les intégrateurs industriels et les agences spatiales, c'est un argument sérieux : un bras pouvant continuer à opérer après une panne de servo partielle, sans masse supplémentaire, répond directement aux contraintes des environnements inaccessibles (orbite, inspection sous-marine, démantèlement nucléaire). Il reste à qualifier cette tolérance aux pannes sur des cycles longs et sous vibrations réelles, deux paramètres absents du papier. Le TDMA s'inscrit dans un courant de recherche sur les architectures d'actionnement à faible redondance physique, en complément des travaux sur les muscles artificiels pneumatiques (soft robotics) et les transmissions à câble tendus à moteurs déportés, popularisés par des bras comme le Kinova Gen3 ou les manipulateurs de l'ESA. La tendance de fond est de repousser la masse vers le bâti plutôt que vers les segments distaux, comme le fait aussi le projet Wandercraft sur ses exosquelettes. Ce travail, issu d'un laboratoire dont l'affiliation institutionnelle n'est pas précisée dans le préprint, n'est pour l'instant qu'une démonstration expérimentale : aucun partenaire industriel ni calendrier de transfert technologique n'est mentionné.

RecherchePaper
1 source
OmniVLA-RL : modèle vision-langage-action avec compréhension spatiale et apprentissage par renforcement en ligne
122arXiv cs.RO 

OmniVLA-RL : modèle vision-langage-action avec compréhension spatiale et apprentissage par renforcement en ligne

OmniVLA-RL, une nouvelle architecture Vision-Language-Action (VLA), est présentée dans un préprint arXiv (référence 2604.17706) dont les affiliations institutionnelles ne sont pas précisées dans la version disponible. Le modèle repose sur un design Mix-of-Transformers (MoT) qui orchestre trois experts spécialisés : raisonnement général, compréhension spatiale, et génération d'action motrice. Les auteurs introduisent également Flow-GSPO, une méthode qui reformule le flow matching comme un processus d'équations différentielles stochastiques (SDE), couplé à un algorithme d'optimisation de politique segmentée par groupes (GSPO). Les évaluations sont conduites sur les benchmarks LIBERO et LIBERO-Plus, deux suites de référence pour la manipulation robotique en simulation, sur lesquelles OmniVLA-RL affiche des performances annoncées supérieures aux méthodes actuellement considérées comme état de l'art. La contribution adresse trois failles structurelles bien documentées dans la littérature VLA : la perception spatiale imprécise, la fusion multimodale sous-optimale, et l'instabilité de l'entraînement par renforcement en ligne sur des espaces d'action continus. En séparant explicitement raisonnement, spatialisation et planification motrice dans des sous-réseaux distincts, OmniVLA-RL évite la dilution de ces capacités dans un unique transformer généraliste, une critique récurrente faite aux VLA de première génération. Flow-GSPO propose un cadre mathématique plus rigoureux pour stabiliser le RL, un enjeu central dans la course au sim-to-real. Pour les intégrateurs et décideurs industriels, ce type d'avancée a un intérêt indirect mais réel : si la robustesse à l'entraînement en ligne s'améliore, le coût de généralisation des bras manipulateurs à de nouvelles tâches sans retraining complet pourrait baisser significativement. Les VLA sont aujourd'hui au centre d'une compétition intense entre groupes académiques et industriels. Physical Intelligence pousse Pi-0 et Pi-0.5 vers la manipulation dextre ; Google DeepMind fait progresser RT-2 et ses dérivés ; du côté des systèmes embarqués dans des humanoïdes, Figure (Figure 03), Tesla (Optimus Gen 3) et 1X intègrent des architectures comparables. OmniVLA-RL se positionne sur le segment recherche fondamentale, avec des résultats limités à la simulation et aucune démonstration sur robot physique annoncée à ce stade. L'évaluation exclusive sur LIBERO ne permet pas de conclure sur les performances en conditions réelles, et le gap sim-to-real reste entier. La prochaine étape naturelle serait une validation sur plateformes physiques, dans des environnements de manipulation non structurés, pour confirmer si les gains observés en simulation tiennent effectivement sur le terrain.

IA physiqueActu
1 source
Benchmark COIN : quand le raisonnement rencontre l'interaction incarnée
123arXiv cs.RO 

Benchmark COIN : quand le raisonnement rencontre l'interaction incarnée

Une équipe de chercheurs a publié sur arXiv (2604.16886) COIN, pour Chain Of Interaction Benchmark, un nouveau protocole d'évaluation conçu pour mesurer la capacité des agents robotiques généralistes à raisonner et agir de manière interactive sur des tâches à horizon long. Le benchmark se structure en trois sous-ensembles : COIN-50, qui regroupe 50 tâches en environnement quotidien réaliste ; COIN-Primitive, consacré aux primitives d'action causalement dépendantes ; et COIN-Composition, de complexité intermédiaire, ciblant l'apprentissage et la généralisation de compétences. Pour constituer les données d'entraînement, les auteurs ont développé un système de télé-opération mobile en réalité augmentée à faible coût, permettant de collecter 1 000 démonstrations, 50 par tâche primitive. Trois familles d'approches ont été évaluées : CodeAsPolicy (génération de code exécutable par LLM), VLA (Vision-Language-Action models), et H-VLA (VLA hiérarchiques conditionnés au langage). Les résultats révèlent des lacunes critiques dans l'état de l'art actuel. Tous les modèles testés échouent significativement sur les tâches nécessitant un raisonnement interactif séquentiel, par exemple, ouvrir plusieurs tiroirs successifs avant de localiser et saisir un objet sous observabilité partielle. Le fossé constaté ne se situe pas tant dans la compréhension visuelle que dans le passage à l'exécution motrice : les modèles peinent à mettre à jour leurs plans en temps réel en fonction des nouvelles informations acquises à chaque étape. Ce résultat pèse directement sur les prétentions des VLA à opérer en autonomie dans des environnements non contrôlés, un signal d'alarme pour les intégrateurs qui anticipent des déploiements industriels à court terme. COIN s'inscrit dans une vague de benchmarks d'embodied AI cherchant à combler le manque de protocoles standardisés au-delà des tâches statiques de pick-and-place. Des travaux comme LIBERO, RLBench ou BEHAVIOR-1K ont posé des bases, mais aucun n'adressait explicitement la chaîne causale d'interactions sous observabilité partielle à cette granularité. La publication intervient alors que les laboratoires industriels, Physical Intelligence (pi) avec Pi-0, Google DeepMind avec RT-2 ou GR00T N2 de NVIDIA, multiplient les annonces sur la généralisation des VLA. COIN fournit un outil de comparaison indépendant, encore académique, dont l'adoption comme standard de facto dépendra de sa capacité à attirer des soumissions extérieures et à être intégré dans les pipelines d'évaluation des acteurs commerciaux.

IA physiqueActu
1 source
L'importance du sens du toucher pour l'apprentissage par imitation : une étude de cas sur l'allumage d'allumettes par robot
124arXiv cs.RO 

L'importance du sens du toucher pour l'apprentissage par imitation : une étude de cas sur l'allumage d'allumettes par robot

Des chercheurs ont publié en avril 2025 sur arXiv (papier 2504.13618) un cadre d'apprentissage par imitation visuotactile multimodal, évalué sur une tâche de référence particulièrement exigeante : l'allumage d'une allumette par un robot. Le système combine une architecture transformer modulaire avec un modèle génératif basé sur les flux (flow-based generative model), entraîné à partir d'un petit nombre de démonstrations humaines. L'originalité tient à l'intégration active de capteurs tactiles, capables de fournir des informations de contact précises, directement dans la boucle de politique, et non comme signal auxiliaire passif. L'allumage d'allumette n'est pas un choix anodin : c'est une tâche dynamique, riche en contacts, où le retour tactile influence mesurablementles performances humaines, ce qui en fait un banc d'essai pertinent pour isoler la contribution du toucher. Ce travail s'attaque à un angle mort bien identifié du domaine : malgré l'essor récent des politiques d'imitation (diffusion policies, VLA), la plupart des architectures restent mono-modales côté perception, vision seule, parfois force-couple, et échouent sur les manipulations dynamiques où le contact est fugace et précis. L'étude démontre expérimentalement que l'ajout du signal tactile améliore les performances de la politique par rapport à une baseline purement visuelle, ce qui étaye l'hypothèse que le sim-to-real et le demo-to-reality gap sur les tâches contact-rich peuvent être réduits en enrichissant la modalité sensorielle plutôt qu'en multipliant les démonstrations. Pour les intégrateurs industriels, c'est un signal : les capteurs tactiles de nouvelle génération (GelSight, DIGIT, XELA et équivalents) commencent à justifier leur coût d'intégration par des gains de robustesse mesurables sur des gestes fins. Ce papier s'inscrit dans une dynamique plus large où les laboratoires académiques (MIT, Stanford, CMU notamment) cherchent à dépasser les politiques visuomotrices en incorporant des modalités sensorielles supplémentaires. Du côté industriel, les robots commerciaux déployés en manipulation, bras collaboratifs Franka, systèmes Figure ou Apptronik, restent majoritairement sans retour tactile intégré, ce qui creuse un écart entre la recherche et le hardware disponible. La prochaine étape naturelle pour cette équipe sera de tester la généralisation de l'approche sur d'autres tâches contact-rich et sur des capteurs tactiles moins onéreux, condition nécessaire pour une adoption industrielle réaliste.

UEImpact indirect : Franka (fabricant allemand de bras collaboratifs) est cité parmi les systèmes actuellement dépourvus de retour tactile intégré, ce qui illustre le fossé recherche/hardware que les constructeurs européens devront combler pour rester compétitifs sur la manipulation fine.

IA physiqueOpinion
1 source
Raffinement de démonstrations accélérées par contrôle itératif incrémental pour l'apprentissage par imitation à contact riche
125arXiv cs.RO 

Raffinement de démonstrations accélérées par contrôle itératif incrémental pour l'apprentissage par imitation à contact riche

Une équipe de chercheurs a publié en avril 2026 sur arXiv (arXiv:2604.16850) une méthode baptisée I2RLC (Incremental Iterative Reference Learning Control) pour générer automatiquement des démonstrations robotiques rapides et précises, sans intervention humaine à haute vitesse. Le constat de départ est simple : en apprentissage par imitation (IL), les humains ne peuvent pas démontrer physiquement une tâche à 5x ou 10x leur vitesse naturelle, et accélérer naïvement un enregistrement dégrade la dynamique de contact et crée des erreurs de suivi qui corrompent les données d'entraînement. L'I2RLC résout ce problème en augmentant progressivement la vitesse d'exécution tout en corrigeant itérativement la trajectoire de référence à partir des erreurs observées. La méthode a été validée sur robot réel, sur deux tâches à contact riche : effacement de tableau blanc et insertion cheville-trou (peg-in-hole), en utilisant un système de téleopération composé d'un bras suiveur à contrôle de compliance et d'un leader haptic imprimé en 3D. Les résultats atteignent des démonstrations 10x plus rapides avec réduction des erreurs de suivi, et I2RLC améliore la similarité spatiale aux trajectoires originales de 22,5 % en moyenne par rapport à la version non-incrémentale (IRLC), sur trois tâches et plusieurs vitesses (3x à 10x). Les politiques entraînées sur ces données atteignent 100 % de taux de réussite sur la tâche peg-in-hole, y compris pour des positions non vues à l'entraînement, avec des forces de contact inférieures. Ce résultat adresse un angle mort fréquent dans le développement des politiques d'imitation : la qualité des démonstrations elle-même. La grande majorité des approches IL (Diffusion Policy, ACT, Pi-0) suppose des démos propres et représentatives, sans se préoccuper du fossé entre la vitesse humaine et la vitesse de déploiement réelle. Ici, la généralisation à des positions non vues avec 100 % de succès constitue un signal concret de robustesse, pas simplement une performance en conditions contrôlées. Pour les intégrateurs industriels, l'enjeu est direct : si l'on peut automatiser la génération de trajectoires rapides à partir de démos lentes, le coût de collecte de données pour des tâches d'assemblage ou de manutention chute significativement. L'apprentissage par imitation pour la manipulation à contact riche est un axe de recherche très actif depuis 2022-2023, porté par des travaux comme ACT (Stanford), Diffusion Policy (MIT/Columbia) et les architectures VLA type Pi-0 (Physical Intelligence). Le problème de la "vitesse des démos" reste cependant peu traité dans la littérature. L'I2RLC s'inscrit dans une lignée de méthodes de contrôle itératif (ILC) adaptées à la robotique apprenante. Aucune entreprise commerciale n'est citée dans cette publication académique, mais les applications industrielles naturelles touchent l'assemblage électronique, le câblage, et toute manipulation nécessitant précision et cadence. Les prochaines étapes probables incluent une extension aux politiques diffusives modernes et une validation sur des tâches multi-étapes en environnement non structuré.

RecherchePaper
1 source
COFFAIL : un jeu de données sur les succès et anomalies d'exécution de compétences robotiques pour la préparation du café
126arXiv cs.RO 

COFFAIL : un jeu de données sur les succès et anomalies d'exécution de compétences robotiques pour la préparation du café

L'équipe derrière COFFAIL a publié sur arXiv (référence 2604.18236) un jeu de données consacré à l'apprentissage de compétences robotiques de manipulation, collecté dans un environnement cuisine avec un robot physique. Le dataset couvre plusieurs types de tâches liées à la préparation de café et se distingue par une caractéristique rare dans la littérature : il regroupe à la fois des épisodes d'exécution réussis et des épisodes anomaux, c'est-à-dire des séquences où quelque chose s'est mal passé. Certains épisodes mobilisent une manipulation bimanuell, impliquant la coordination des deux bras du robot. Les auteurs démontrent l'usage concret du dataset en entraînant une politique robotique par imitation learning (apprentissage par démonstration). Ce qui distingue COFFAIL des datasets de manipulation habituellement disponibles, c'est l'inclusion explicite des échecs et des anomalies. La grande majorité des benchmarks publics ne documentent que les trajectoires réussies, ce qui crée un biais structurel dans l'entraînement des modèles : les robots apprennent à réussir, mais pas à détecter ni à récupérer d'une défaillance. Pour les intégrateurs industriels et les équipes de recherche travaillant sur la robustesse et la détection d'anomalies en manipulation, disposer d'exemples négatifs annotés est une ressource directement exploitable, notamment pour entraîner des modules de supervision ou de re-planification. L'application à l'imitation learning suggère aussi une compatibilité avec les architectures VLA (vision-language-action) actuelles. La préparation de café comme domaine applicatif est un choix délibéré dans la robotique de service : c'est une tâche suffisamment structurée pour être reproductible, mais qui implique des objets déformables, des liquides, et des contraintes temporelles, ce qui en fait un banc de test représentatif pour la manipulation fine. Plusieurs labos et startups ont utilisé des scénarios similaires pour tester leurs pipelines, dont Physical Intelligence (pi0), Everyday Robots (avant sa dissolution chez Google) ou des équipes académiques européennes. COFFAIL reste pour l'instant une contribution de dataset sans benchmarking comparatif avec d'autres méthodes, ce qui limite la portée des conclusions : le papier est court et déclaré comme tel par les auteurs. Les prochaines étapes naturelles seraient une évaluation comparative sur des tâches de détection d'anomalies et une extension du protocole à d'autres domaines de manipulation.

UELes équipes de recherche européennes en manipulation robotique peuvent exploiter ce dataset pour entraîner des modules de détection d'anomalies, mais aucun acteur FR/EU n'est directement impliqué dans sa production.

RecherchePaper
1 source
Actionneurs magnétiques bio-inspirés capables de pousser, tirer, ramper et saisir
127arXiv cs.RO 

Actionneurs magnétiques bio-inspirés capables de pousser, tirer, ramper et saisir

Des chercheurs ont présenté une nouvelle famille d'actionneurs magnétiques doux, baptisés MMA (muscle-inspired magnetic actuators), fabriqués par frittage laser sur lit de poudre (LPBF) à partir d'un composite thermoplastique polyuréthane chargé de particules de Nd2Fe14B (néodyme-fer-bore). En jouant sur un paramètre d'énergie laser compris entre 1,0 et 3,0, l'équipe contrôle simultanément la rigidité mécanique, la résistance à la traction passe de 0,28 à 0,99 MPa pour un allongement à rupture maintenu entre 30 et 45 %, et la réponse magnétique du matériau. Cette co-programmation en un seul passage de fabrication permet d'obtenir des charnières flexurales de 0,5 mm d'épaisseur capables de se plier et de se déplier de manière réversible sans dommage. Deux configurations ont été démontrées : un actionneur linéaire de 1,57 g qui, sous un champ de 500 mT, soulève une charge de 50 g, soit 32 fois son propre poids, avec un maintien de performance sur au moins 50 cycles ; et un actionneur expansible qui s'ouvre et se ferme sous 300 mT, capable de saisir aussi bien des baies molles que des géométries rigides imprimées en 3D, et de s'ancrer dans un tube pour suspendre 50 g. Ce résultat est notable parce qu'il résout un compromis classique de la robotique souple : obtenir à la fois rigidité contrôlable, grande déformation et actionnement sans câble ni source d'énergie embarquée. L'absence de tuyauterie pneumatique ou de fils d'alimentation simplifie radicalement l'intégration dans des espaces confinés, ce qui est directement pertinent pour la manipulation médicale mini-invasive ou les robots d'inspection en milieu industriel. Le taux de succès de locomotion de 100 % sur substrats texturés, certes dans un cadre laboratoire contrôlé, suggère une robustesse mécanique supérieure aux actionneurs pneumatiques comparables, bien que les conditions de test restent à reproduire hors labo. Les actionneurs magnétiques doux existent depuis une dizaine d'années, mais ils reposaient généralement sur des élastomères moulés (PDMS, silicone) avec des poudres magnétiques dispersées, dont la fabrication limite la résolution géométrique et la répétabilité. L'apport du LPBF est de passer à une fabrication additive directe, plus précise et potentiellement industrialisable. Sur le plan concurrentiel, l'approche se positionne face aux actionneurs à alliages à mémoire de forme (SMA, typiquement Nitinol), aux systèmes câblés type Festo ou aux actionneurs pneumatiques de Shadow Robot et Soft Robotics Inc. Aucun partenaire industriel ni calendrier de commercialisation ne sont mentionnés dans la publication arXiv, qui reste à ce stade un résultat de recherche fondamentale. Les prochaines étapes naturelles seraient la démonstration à plus grande échelle, l'évaluation de la durée de vie au-delà de 50 cycles, et des essais in vivo pour valider le potentiel biomédical annoncé.

RecherchePaper
1 source
AnchorRefine : manipulation synergique par ancrage de trajectoire et raffinement résiduel pour les modèles VLA
128arXiv cs.RO 

AnchorRefine : manipulation synergique par ancrage de trajectoire et raffinement résiduel pour les modèles VLA

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.17787) AnchorRefine, un framework hiérarchique conçu pour améliorer les modèles vision-langage-action (VLA) dans les tâches de manipulation robotique de précision. Le principe central repose sur une décomposition en deux niveaux : un planificateur d'ancres de trajectoire (anchor planner) qui génère un squelette de mouvement grossier, et un module de raffinement résiduel qui corrige les déviations en phase d'exécution pour améliorer la précision géométrique et de contact. Le système intègre également un mécanisme de raffinement de pince sensible aux transitions discrètes (decision-aware gripper refinement), conçu pour mieux capturer le caractère binaire et critique aux frontières du contrôle de préhension. Évalué sur les benchmarks LIBERO et CALVIN, ainsi que sur des tâches en robot réel, AnchorRefine affiche des gains allant jusqu'à 7,8 points de pourcentage en taux de succès en simulation et 18 points en conditions réelles, sur des backbones VLA à base de régression comme de diffusion. Le problème que cette architecture cherche à résoudre est structurel dans la conception actuelle des politiques VLA : lorsqu'une politique génère toutes les actions dans un espace unifié, les grands mouvements de transport dominent l'optimisation et noient les signaux correctifs de faible amplitude, pourtant critiques pour les tâches de précision comme l'assemblage, l'insertion ou la manipulation d'objets fragiles. En séparant explicitement la planification macroscopique de l'ajustement microscopique, AnchorRefine reproduit une structure proche de la motricité humaine, où la trajectoire globale et la correction locale sont des processus distincts. Le gain de 18 % en conditions réelles est significatif car il suggère une réduction effective du sim-to-real gap sur les tâches de contact, un verrou majeur pour la commercialisation des manipulateurs polyvalents. Ce travail s'inscrit dans une tendance de fond en robotique académique : l'hybridation entre planification à haut niveau (souvent guidée par le langage ou la vision) et contrôle fin en boucle fermée. Des approches comme pi0 (Physical Intelligence) ou GR00T N2 (NVIDIA) intègrent déjà des mécanismes proches, tandis que des labos comme celui de Chelsea Finn (Stanford) ou Sergey Levine (Berkeley) explorent la hiérarchie action depuis plusieurs années. AnchorRefine se distingue en proposant une solution modulaire compatible avec des backbones existants sans réentraîner l'ensemble du modèle, ce qui facilite potentiellement son intégration dans des pipelines VLA déjà déployés. Les auteurs ne mentionnent pas de partenariat industriel ni de timeline de déploiement, et les évaluations restent cantonnées à des benchmarks académiques, ce qui tempère les conclusions sur la robustesse en environnement non contrôlé.

RechercheOpinion
1 source
ReFineVLA : des politiques robotiques généralistes renforcées par raisonnement multimodal via fine-tuning guidé
129arXiv cs.RO 

ReFineVLA : des politiques robotiques généralistes renforcées par raisonnement multimodal via fine-tuning guidé

Des chercheurs ont publié le 22 avril 2026 sur arXiv un article présentant ReFineVLA, un cadre d'apprentissage conçu pour améliorer les capacités de raisonnement des modèles Vision-Language-Action (VLA) en robotique. L'approche repose sur deux étapes : un modèle enseignant expert génère d'abord des rationales de raisonnement pour enrichir les jeux de données robotiques existants, puis ces données augmentées servent à affiner des VLA pré-entraînés. Les auteurs évaluent leur méthode sur SimplerEnv, un environnement de simulation de manipulation, en testant deux plateformes robotiques distinctes : le bras WidowX et le Google Robot. ReFineVLA affiche un taux de succès supérieur à la deuxième meilleure méthode sur les deux benchmarks, selon les résultats rapportés. Aucun chiffre précis de marge de progression n'est fourni dans l'abstract. L'enjeu soulevé par ce travail est le fossé entre performance brute et raisonnement explicite dans les VLA actuels. Les modèles existants apprennent des mappings entrée-action fonctionnels mais omettent les étapes logiques intermédiaires, ce qui fragilise leur interprétabilité et leur généralisation sur des tâches longues et complexes. Pour les intégrateurs industriels, cette lacune est critique : un robot qui réussit une tâche sans pouvoir expliquer sa décision est difficile à valider, à certifier, ou à déboguer. ReFineVLA propose d'injecter du raisonnement structuré au moment du fine-tuning plutôt qu'en repensant l'architecture, ce qui est une approche pragmatique pour améliorer des modèles existants comme OpenVLA ou pi0 sans réentraînement complet. Ce travail s'inscrit dans une tendance récente visant à combler le gap entre LLMs raisonnants et politiques robotiques. Des approches comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA ont montré que les VLA pré-entraînés sur de larges corpus peuvent être adaptés à des domaines spécifiques. ReFineVLA pousse cette logique en ciblant explicitement le raisonnement comme vecteur de généralisation. Les évaluations restent cantonnées à la simulation, et la question du transfert sim-to-real n'est pas traitée dans cette version. Les prochaines étapes naturelles seraient une validation sur robot réel et une mesure de l'impact sur des tâches de manipulation longue séquence hors distribution.

IA physiqueOpinion
1 source
Les gens apprécient-ils un entraîneur robot ? Étude de cas avec Snoopie le Pacerbot
130arXiv cs.RO 

Les gens apprécient-ils un entraîneur robot ? Étude de cas avec Snoopie le Pacerbot

Une équipe de chercheurs a développé SNOOPIE (Snoopie Pacerbot), un robot quadrupède autonome conçu pour servir d'entraîneur personnel lors de séances d'interval training. Publié sur arXiv (2604.18331), le travail porte sur une tâche spécifique : guider des coureurs à maintenir un rythme précis sur des intervalles répétés, une discipline où la régularité est critique. Dans les expériences utilisateurs menées, les participants équipés du robot ont respecté leur plan de cadence avec 60,6 % de précision supplémentaire par rapport à un groupe utilisant une Apple Watch, et ont maintenu une vitesse de course 45,9 % plus régulière d'un intervalle à l'autre. Sur le plan subjectif, la préférence pour le robot sur le wearable est nette : facilité d'utilisation (+56,7 %), plaisir de l'interaction (+60,6 %), sentiment d'être bien accompagné (+39,1 %). Ces résultats soulèvent une question concrète pour les intégrateurs et les concepteurs de systèmes d'entraînement connecté : la présence physique incarnée d'un robot apporte-t-elle une valeur ajoutée mesurable par rapport à un écran ou un capteur poignet ? L'étude suggère que oui, au moins dans ce cas précis. Le robot peut ajuster son allure en temps réel, maintenir une distance constante avec le coureur, et fournir un retour visuel et cinétique que ni une montre ni une application mobile ne peuvent reproduire. Cela conforte l'hypothèse que l'embodiment robotique n'est pas qu'un argument marketing dans les contextes d'interaction physique prolongée : il modifie effectivement le comportement de l'utilisateur. Ces données restent néanmoins issues d'une étude de laboratoire à effectif limité, et les conditions réelles (terrain variable, foule, météo) n'ont pas été testées. Les robots quadrupèdes agiles comme ceux de Boston Dynamics (Spot) ou les plateformes issues des travaux de l'ETH Zurich et de CMU ont ouvert la voie à une nouvelle génération de robots capables de se déplacer de manière fiable dans des environnements non structurés. SNOOPIE s'inscrit dans cette lignée en poussant l'usage vers une application grand public et de bien-être, un territoire encore peu exploré par l'industrie. Les concurrents directs dans le créneau coaching physique robotisé sont quasi inexistants à ce stade commercial, mais des entreprises comme Agility Robotics ou Unitree pourraient théoriquement adapter leurs plateformes à ce type d'usage. Les suites annoncées par l'équipe incluent des tests en conditions extérieures et l'intégration de retours verbaux, avec l'ambition de transformer SNOOPIE en dispositif d'entraînement personnalisé adaptatif à plus long terme.

RecherchePaper
1 source
Géwu : un environnement interactif en ligne pour l'apprentissage par renforcement en robotique
131arXiv cs.RO 

Géwu : un environnement interactif en ligne pour l'apprentissage par renforcement en robotique

Une équipe de chercheurs a publié le 23 avril 2026 Web-Gewu (arXiv:2604.17050), une plateforme pédagogique de robotique conçue pour permettre l'entraînement par renforcement (RL) directement depuis un navigateur web, sans installation locale. L'architecture repose sur un modèle cloud-edge-client s'appuyant sur WebRTC : toute la simulation physique et l'entraînement RL sont déportés sur un nœud edge, tandis que le serveur cloud ne joue qu'un rôle de relais de signalisation léger. La communication entre l'apprenant et le nœud de calcul s'effectue en pair-à-pair (P2P), avec une latence bout-en-bout annoncée comme faible, sans que des chiffres précis soient fournis dans le préprint. Les apprenants visualisent en temps réel les courbes de récompense RL et interagissent avec plusieurs formes de robots simulés, le tout via un protocole de communication de commandes prédéfini. L'intérêt de cette approche est structurel : elle attaque directement les deux verrous qui freinent l'enseignement de la robotique incarnée à grande échelle. D'un côté, les solutions cloud centralisées existantes entraînent des coûts GPU et de bande passante prohibitifs pour un déploiement massif en contexte éducatif. De l'autre, le calcul purement local bute sur les limitations matérielles des apprenants, souvent sans GPU dédié. En déplaçant la charge vers un nœud edge mutualisé et en réduisant le cloud à un simple relais, Web-Gewu réduit significativement le coût marginal par apprenant. Pour les institutions qui cherchent à former des ingénieurs au RL appliqué à la robotique, c'est un argument concret, même si la robustesse à l'échelle reste à démontrer hors environnement de laboratoire. Ce travail s'inscrit dans une tendance plus large de démocratisation des outils de simulation robotique, portée notamment par des environnements comme Isaac Sim (NVIDIA), MuJoCo (DeepMind/Google) ou encore Genesis, tous nécessitant des ressources locales ou des accès cloud coûteux. Web-Gewu se positionne dans un créneau différent, celui de la formation et de l'expérimentation accessible, plutôt que de la recherche haute performance. Le code source n'est pas encore public au moment de la soumission, et la plateforme reste au stade de prototype académique avec une instance de démonstration exposée à l'adresse IP indiquée dans le papier. Les prochaines étapes naturelles seraient une évaluation quantitative de la latence, une montée en charge sur plusieurs dizaines d'apprenants simultanés, et une ouverture du code pour permettre un déploiement institutionnel autonome.

RecherchePaper
1 source
OFlow : flux temporel centré sur les objets pour une manipulation robotique robuste
132arXiv cs.RO 

OFlow : flux temporel centré sur les objets pour une manipulation robotique robuste

Des chercheurs ont publié le 24 avril 2026 OFlow, un framework destiné à améliorer la robustesse des modèles Vision-Language-Action (VLA) dans les tâches de manipulation robotique. L'approche, présentée dans un preprint arXiv (2604.17876), repose sur deux mécanismes combinés : un module de prédiction temporelle par flow matching, qui anticipe l'évolution de la scène avant d'agir, et une représentation centrée sur les objets pertinents pour la tâche, qui filtre les variations visuelles sans intérêt. Ces deux composants partagent un même espace latent sémantique, à partir duquel la génération des actions continues est conditionnée. Les évaluations couvrent quatre environnements de référence, LIBERO, LIBERO-Plus, MetaWorld et SimplerEnv, ainsi que des expériences en conditions réelles, et montrent des gains de robustesse et de taux de succès par rapport aux baselines VLA standards. Le verrou que tente de lever OFlow est bien identifié dans la communauté : les VLAs actuels raisonnent image par image, sans modèle explicite de ce qui va se passer ni de quels objets comptent vraiment. En séparant les cues visuels liés à la tâche des variations de fond (éclairage, texture, pose de la caméra), OFlow produit des représentations plus stables sous distribution shift, c'est-à-dire lorsque les conditions réelles diffèrent du training data. Pour les intégrateurs et les équipes de déploiement industriel, c'est un point critique : la fragilité des VLAs face aux écarts de conditions est l'un des principaux obstacles à leur passage en production. Les résultats sur SimplerEnv et les tâches réelles sont particulièrement scrutés, car ce benchmark est conçu pour tester explicitement ce gap sim-to-real. OFlow s'inscrit dans une vague de travaux cherchant à doter les VLAs d'une forme de planification implicite, après des modèles comme pi0 (Physical Intelligence) ou GR00T N2 (NVIDIA) qui misent sur des architectures diffusion ou flux pour la génération d'actions. L'originalité revendiquée ici est l'unification dans un espace latent commun, plutôt que d'ajouter des modules séparés. Il s'agit pour l'instant d'un preprint non relu par des pairs, et les benchmarks utilisés, LIBERO notamment, sont bien maîtrisés par la communauté mais n'impliquent pas de robots déployés en production. Les prochaines étapes naturelles seront la validation sur des plateformes hardware variées et une comparaison directe avec les approches concurrentes sur des scénarios industriels réels.

IA physiqueOpinion
1 source
2D ou 3D : qui gouverne la saillance dans les modèles VLA ? Un cadre d'élagage de tokens en trois étapes avec conscience de la saillance modale
133arXiv cs.RO 

2D ou 3D : qui gouverne la saillance dans les modèles VLA ? Un cadre d'élagage de tokens en trois étapes avec conscience de la saillance modale

Des chercheurs ont publié sur arXiv (référence 2604.09244, version 2, avril 2026) un article proposant un cadre d'élagage de tokens en trois étapes pour accélérer les modèles VLA (Vision-Language-Action) multi-modaux. Le constat de départ : les VLA de dernière génération ne se contentent plus d'entrées 2D classiques (images RGB) mais intègrent également des données 3D (nuages de points, profondeur), formant ce que les auteurs appellent des modèles MVLA (Multi-Visual-Modal VLA). Cette expansion modale améliore la perception spatiale des robots, mais elle multiplie le nombre de tokens traités à l'inférence, créant un goulot d'étranglement computationnel significatif. Le framework proposé introduit une analyse en trois phases qui capture les différences de saillance entre tokens 2D et 3D à chaque étape du traitement, puis applique un élagage ciblé selon ces différences. Les expériences rapportent un gain d'accélération allant jusqu'à 2,55x à l'inférence, avec une perte de précision minimale et un surcoût de traitement limité à 5,8%. Ce résultat est pertinent pour les équipes qui cherchent à déployer des VLA sur du matériel embarqué ou des robots opérant en temps réel. L'un des freins majeurs à la commercialisation des robots manipulateurs pilotés par VLA est précisément le coût computationnel de l'inférence : un gain de 2,55x sans dégradation significative des performances ouvre la voie à des cycles de décision plus courts sans nécessiter de GPU de datacenter. Il met aussi en lumière un angle mort des approches d'optimisation existantes : les méthodes d'élagage de tokens conçues pour des VLA 2D ne tiennent pas compte du fait que les tokens 3D et 2D n'ont pas la même importance selon le contexte et l'étape de traitement. Ignorer cette hétérogénéité conduit à des élagages sous-optimaux. Les modèles VLA sont devenus le paradigme dominant en robotique incarnée depuis Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), qui ont tous deux popularisé l'architecture action-transformer multi-modal. La tendance à intégrer la modalité 3D s'est accélérée avec l'essor des capteurs LiDAR et RGB-D dans les environnements industriels. Ce travail s'inscrit dans une série d'efforts d'optimisation de l'inférence VLA, aux côtés de travaux comme FastV ou des approches de distillation, mais avec la spécificité de traiter explicitement la multi-modalité visuelle. Le code source n'est pas encore publié, ce qui limite pour l'instant la reproductibilité et l'adoption pratique ; les prochaines étapes annoncées concernent sa mise à disposition publique.

RechercheOpinion
1 source
XEmbodied : un modèle fondation aux indices géométriques et physiques renforcés pour les environnements incarnés à grande échelle
134arXiv cs.RO 

XEmbodied : un modèle fondation aux indices géométriques et physiques renforcés pour les environnements incarnés à grande échelle

Une équipe de chercheurs a publié fin avril 2026 sur arXiv (référence 2604.18484) les travaux sur XEmbodied, un modèle fondateur côté cloud conçu pour améliorer l'annotation et l'entraînement des modèles Vision-Langage-Action (VLA) dans des environnements complexes à grande échelle. L'approche repose sur deux composants techniques distincts : un adaptateur 3D structuré qui intègre une représentation géométrique native (grilles d'occupation, boîtes englobantes 3D) dans un modèle de langage visuel (VLM) existant, et un adaptateur image-embodied efficace qui distille des signaux physiques en tokens contextuels. L'entraînement combine un curriculum progressif par domaine et un post-entraînement par apprentissage par renforcement. Les résultats sont évalués sur 18 benchmarks publics couvrant le raisonnement spatial, la sémantique trafic, l'affordance embodied et la généralisation hors distribution. Ce travail cible un goulot d'étranglement concret dans la chaîne de développement des systèmes autonomes incarnés : les pipelines d'annotation actuels s'appuient sur des VLM génériques pré-entraînés uniquement sur des paires image-texte 2D, sans compréhension intrinsèque de la géométrie 3D ni des contraintes physiques. Pour un intégrateur ou un décideur industriel qui cherche à construire des datasets de qualité pour robots mobiles ou bras manipulateurs, XEmbodied positionne la compréhension géométrique non comme une entrée auxiliaire optionnelle, mais comme une capacité fondamentale du modèle. Cela représente un changement d'approche notable dans la manière de produire des annotations scalables pour l'embodied AI, un segment où la qualité des données d'entraînement reste le principal facteur limitant avant même l'architecture du VLA lui-même. XEmbodied s'inscrit dans une vague de travaux visant à combler le fossé entre les VLM généralistes (GPT-4V, LLaVA, Qwen-VL) et les exigences de l'embodied AI, où les modèles comme π0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA nécessitent des données d'entraînement spatialement cohérentes et physiquement plausibles. La contribution ici n'est pas un VLA en soi, mais une couche d'infrastructure cloud pour en produire de meilleurs. Aucun déploiement industriel ni partenariat commercial n'est mentionné dans l'article : il s'agit d'un travail académique, dont la valeur pratique dépendra de l'adoption par les équipes qui construisent ces pipelines d'annotation à l'échelle.

RechercheOpinion
1 source
EmbodiedLGR : un graphe léger pour la mémoire sémantique-spatiale des agents robotiques
135arXiv cs.RO 

EmbodiedLGR : un graphe léger pour la mémoire sémantique-spatiale des agents robotiques

Des chercheurs ont publié le 23 avril 2026 sur arXiv (référence 2604.18271) les travaux sur EmbodiedLGR-Agent, une architecture mémoire pour robots mobiles combinant graphe sémantique léger et retrieval-augmented generation. Le système repose sur un modèle visuo-langagier (VLM) à faible empreinte paramétrique qui indexe en continu les objets détectés, leurs positions et leurs relations spatiales dans un graphe dense, tout en conservant des descriptions de haut niveau des scènes observées via une couche RAG classique. L'ensemble tourne localement, sans dépendance cloud. Évalué sur le benchmark NaVQA, EmbodiedLGR-Agent atteint des performances état de l'art sur les temps d'inférence et de requête pour les agents robotiques embarqués, tout en maintenant une précision compétitive sur la tâche globale de question-réponse spatiale. Le système a également été déployé sur un robot physique réel, validant son utilité hors simulation. Ce qui mérite attention, c'est moins la précision brute que la latence : dans les interactions humain-robot, un agent qui répond "où sont les ciseaux ?" en temps humain change radicalement l'expérience utilisateur. La majorité des architectures mémoire robotiques actuelles sacrifient la réactivité à la richesse sémantique, ou inversement. L'approche hybride graphe + RAG tente de résoudre ce compromis sans exploser les ressources de calcul embarqué. Le déploiement sur robot physique, et non en simulation pure, est un signal concret, même si l'article ne précise pas la plateforme matérielle ni les métriques de latence chiffrées en millisecondes, ce qui limite la comparabilité directe avec d'autres systèmes. L'enjeu de la mémoire sémantique-spatiale est un chantier ouvert depuis plusieurs années dans la communauté robotique, avec des approches comme les scene graphs neuraux, ConceptGraphs ou encore les travaux de SayPlan. EmbodiedLGR se positionne sur le segment des architectures légères et déployables sur matériel contraint, là où des solutions comme celles de Boston Dynamics ou des startups comme Skild AI misent plutôt sur la puissance de calcul embarquée ou le traitement distant. Sur le front européen, des acteurs comme Enchanted Tools (Mirokaï) ou Wandercraft travaillent également sur la cognition embarquée, mais dans des contextes applicatifs distincts. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks plus récents (Habitat, OpenEQA) et une publication des temps de latence mesurés sur plateforme physique.

RechercheOpinion
1 source
Système de vision par projection de franges pour le démontage autonome de disques durs
136arXiv cs.RO 

Système de vision par projection de franges pour le démontage autonome de disques durs

Des chercheurs ont publié sur arXiv (2604.17231) un pipeline de vision entièrement autonome conçu pour le démontage robotique de disques durs (HDD), une catégorie de déchets électroniques à forte valeur récupérable. Le système repose sur un module de profilométrie par projection de franges (Fringe Projection Profilometry, FPP) qui génère des cartes de profondeur 3D haute résolution, complété par un module de reconstruction de profondeur (depth completion) activé sélectivement là où le FPP échoue, notamment sur les surfaces réfléchissantes des plateaux magnétiques. Ce module de complétion utilise le backbone Depth Anything V2 Base et atteint un RMSE de 2,317 mm et un MAE de 1,836 mm. La segmentation d'instance temps réel, intégrée dans le même pipeline, obtient un box mAP@50 de 0,960 et un mask mAP@50 de 0,957. L'ensemble de la stack d'inférence affiche une latence combinée de 12,86 ms et un débit de 77,7 images par seconde sur le poste d'évaluation. Le dataset synthétique développé pour la segmentation des composants HDD sera rendu public. L'intérêt technique central de cette approche réside dans le choix d'utiliser le même système caméra-projecteur FPP pour la perception 3D et la localisation des composants : les cartes de profondeur et les masques de segmentation sont nativement alignés pixel par pixel, sans étape de recalage. C'est un avantage direct sur les systèmes RGB-D industriels classiques, qui nécessitent une calibration extrinsèque entre capteur de profondeur et caméra couleur, source d'erreurs en conditions réelles. Pour les intégrateurs de cellules de démontage automatisé, cela réduit significativement la complexité système et le risque de dérive de calibration en production. Le démontage automatisé de déchets électroniques reste un domaine peu industrialisé malgré son potentiel économique : les HDD contiennent des terres rares, des aimants en néodyme et des plateaux en aluminium à valeur de récupération non négligeable. Les approches existantes sont fragmentées, traitent séparément la vision 3D et la localisation des fixations (vis, clips), sans pipeline unifié. Ce travail adresse précisément ce manque. Sur le plan concurrentiel, des acteurs comme Recycleye (UK) ou Greyparrot travaillent sur la vision pour le tri de déchets, mais le démontage structuré de composants électroniques à l'échelle robotique reste un espace encore ouvert. Le transfert sim-to-real utilisé ici pour augmenter les données d'entraînement est une approche désormais standard mais dont la robustesse sur des surfaces hautement spéculaires comme les plateaux HDD mérite validation sur ligne industrielle réelle.

RecherchePaper
1 source
Rule-VLN : unifier perception et respect des règles par raisonnement sémantique et rectification géométrique
137arXiv cs.RO 

Rule-VLN : unifier perception et respect des règles par raisonnement sémantique et rectification géométrique

Une équipe de chercheurs a publié sur arXiv (2604.16993) un article introduisant Rule-VLN, un benchmark urbain à grande échelle conçu pour évaluer la navigation par instruction langagière (Vision-and-Language Navigation, ou VLN) sous contraintes réglementaires. L'environnement couvre 29 000 nœuds de graphe urbain, avec 8 000 nœuds soumis à 177 catégories de règles distinctes réparties en quatre niveaux de difficulté croissante. Pour corriger les agents existants, les auteurs proposent le Semantic Navigation Rectification Module (SNRM), un module zero-shot greffable sur tout agent VLN pré-entraîné. Dans les expériences rapportées, SNRM réduit le taux de violation des contraintes (Constraint Violation Rate, CVR) de 19,26 % et améliore le taux de complétion de tâche (Task Completion, TC) de 5,97 % par rapport aux modèles de référence. Le problème identifié est structurel : les agents VLN actuels tombent dans ce que les auteurs appellent le "goal-driven trap", un biais où la géométrie physique ("puis-je passer ici ?") prime sur la sémantique réglementaire ("suis-je autorisé à passer ici ?"). Pour les intégrateurs de systèmes de navigation autonome en environnement urbain ou semi-public, cela signifie concrètement que les agents actuels ignorent des contraintes visibles pourtant critiques : panneaux d'interdiction, zones piétonnes, restrictions de circulation. Rule-VLN est le premier benchmark à formaliser ces contraintes à cette échelle, ce qui en fait un outil de qualification utile pour les développeurs souhaitant valider la conformité comportementale avant déploiement réel, au-delà des métriques classiques de succès de navigation. La VLN est un axe de recherche actif depuis les travaux fondateurs de l'environnement R2R (2018, Anderson et al.), majoritairement axés sur la reachability dans des environnements intérieurs. Rule-VLN étend explicitement ce cadre à l'urbain extérieur avec une dimension normative, un angle peu exploré jusqu'ici malgré la montée en charge des robots de livraison et des AMR en espace public. Côté concurrents directs, des benchmarks comme TouchDown ou CityNav posent des bases géographiques réalistes mais sans injection systématique de contraintes réglementaires. Le SNRM s'appuie sur un VLM (Vision-Language Model) en pipeline coarse-to-fine couplé à une carte mentale épistémique pour la planification de détours dynamiques. Les résultats sont présentés uniquement en conditions simulées : aucun déploiement réel n'est mentionné, et les gains de 19 % sur CVR restent à valider sur des environnements physiques avec une distribution de règles non contrôlée.

UEPertinent pour les intégrateurs de robots de livraison et AMR en espace public européen confrontés aux contraintes réglementaires urbaines, mais aucun acteur FR/EU n'est impliqué dans ces travaux.

RechercheOpinion
1 source
Discussion sur la prédiction de trajectoires conditionnelles
138arXiv cs.RO 

Discussion sur la prédiction de trajectoires conditionnelles

Des chercheurs ont déposé en avril 2026 sur arXiv (référence 2604.18126) une nouvelle méthode de prédiction de trajectoire conditionnelle baptisée CiT, pour Cross-time-domain intention-interactive method for conditional Trajectory prediction. L'objectif est de permettre à un robot évoluant parmi des humains ou d'autres agents mobiles de prédire précisément leurs trajectoires futures, en tenant compte non seulement de leurs interactions sociales mutuelles, mais aussi du mouvement propre du robot lui-même. Le système génère un ensemble de trajectoires candidates pour chaque agent environnant, en fonction des intentions de déplacement possibles de l'ego agent. Testé sur plusieurs benchmarks standards du domaine, CiT dépasse selon ses auteurs les méthodes de l'état de l'art existantes. La distinction centrale de CiT par rapport aux approches concurrentes réside dans l'intégration explicite du mouvement de l'ego agent dans la boucle de prédiction. La quasi-totalité des méthodes existantes modélisent les interactions sociales à partir d'informations statiques, ignorant le fait que le robot lui-même modifie le comportement des agents qui l'entourent. CiT s'inspire du concept de "théorie de l'esprit" en robotique sociale : chaque agent anticipe les intentions des autres pour ajuster les siennes. Techniquement, la méthode opère une analyse conjointe des intentions comportementales sur plusieurs domaines temporels, permettant aux informations d'interaction d'un domaine de corriger et affiner les estimations d'intention de l'autre. Cette complémentarité temporelle est présentée comme le levier principal du gain de performance. Pour des intégrateurs de systèmes de navigation autonome ou de robots collaboratifs (cobots), cette capacité à modéliser la réciprocité comportementale est directement exploitable dans des modules de planification de chemin et de contrôle. La prédiction de trajectoire conditionelle est un champ de recherche en pleine activité, alimenté par les besoins des véhicules autonomes et de la robotique de service. Des équipes comme Waymo, NVIDIA (avec son framework Isaac Perceptor) ou des laboratoires académiques comme Stanford et ETH Zurich ont posé les bases de la modélisation sociale de trajectoires. CiT s'inscrit dans cette lignée en ciblant explicitement les systèmes d'interaction humain-robot, un segment distinct des systèmes véhiculaires. L'article reste à ce stade un preprint non évalué par les pairs, sans données de déploiement réel ni validation hors benchmarks publics, ce qui limite l'interprétation des résultats annoncés. Les prochaines étapes naturelles seraient une validation en conditions réelles et une intégration dans des architectures ROS2 ou similaires.

RecherchePaper
1 source
HAVEN : navigation hiérarchique sensible aux adversaires, visibilité et couverts par réseaux Q à transformeurs profonds
139arXiv cs.RO 

HAVEN : navigation hiérarchique sensible aux adversaires, visibilité et couverts par réseaux Q à transformeurs profonds

Des chercheurs ont publié sur arXiv (arXiv:2512.00592v2) un framework de navigation autonome baptisé HAVEN, Hierarchical Adversary-aware Visibility-Enabled Navigation, conçu pour faire évoluer des agents robotiques dans des environnements partiellement observables, c'est-à-dire là où les capteurs ne voient pas tout et où des obstacles occultent une partie de la scène. L'architecture combine un réseau de neurones de type Deep Transformer Q-Network (DTQN) pour la sélection de sous-objectifs à haut niveau, et un contrôleur bas niveau à champs de potentiel pour l'exécution des waypoints. Le DTQN ingère des historiques courts de features contextuelles, odométrie, direction de l'objectif, proximité des obstacles, indices de visibilité, et produit des Q-values qui classent les sous-objectifs candidats. Une génération de candidats dite "visibility-aware" introduit des pénalités d'exposition et récompense l'utilisation des couverts, favorisant un comportement anticipatoire plutôt que réactif. Le système a été validé en simulation 2D puis transféré sans modification architecturale vers un environnement 3D Unity-ROS, en projetant la perception point-cloud dans le même schéma de features. Ce travail s'attaque à un problème concret dans les déploiements robotiques réels : les planificateurs classiques (A*, RRT) et les politiques de reinforcement learning sans mémoire peinent dès que le champ de vision est limité, générant des manœuvres sous-optimales ou dangereuses dans des espaces encombrés. L'apport du Transformer réside dans sa capacité à exploiter l'historique temporel pour inférer l'état caché de l'environnement, là où un réseau feedforward réagirait à l'instant présent. Les résultats montrent des améliorations mesurées sur le taux de succès, les marges de sécurité et le temps jusqu'à l'objectif par rapport aux baselines RL et aux planificateurs classiques, bien que les expériences restent en simulation, sans banc d'essai sur hardware réel, ce qui laisse ouverte la question du sim-to-real gap. HAVEN s'inscrit dans une tendance de recherche qui applique les architectures Transformer, initialement conçues pour le NLP, au contrôle séquentiel de robots en environnements incertains. Le champ de l'autonomie sous occlusion est particulièrement actif : des travaux comme Decision Transformer ou GTrXL ont posé les bases de l'usage de la mémoire contextuelle en RL. Les domaines d'application cités par les auteurs couvrent la logistique entrepôt (AMR en environnement dynamique), la conduite urbaine et la surveillance, un positionnement qui rejoint les problématiques des acteurs de la navigation indoor comme Exotec ou Balyo côté français. La prochaine étape naturelle serait une validation sur plateforme physique et des benchmarks en environnements réels avec adversaires mobiles, conditions non encore adressées dans cette version.

UELes acteurs français de la navigation indoor comme Exotec et Balyo pourraient être concernés par cette approche de planification sous occlusion, mais le travail reste entièrement en simulation sans validation matérielle.

RecherchePaper
1 source
Commande optimale de robots planaires sous-actionnés différentiellement plats pour la réduction des oscillations
140arXiv cs.RO 

Commande optimale de robots planaires sous-actionnés différentiellement plats pour la réduction des oscillations

Une équipe de chercheurs a publié sur arXiv (arXiv:2603.15528v2) une étude portant sur la commande optimale des robots planaires sous-actionnés différentiellement plats, avec pour objectif principal la réduction des oscillations résiduelles de l'effecteur terminal. Les robots sous-actionnés présentent un nombre de degrés de liberté (DOF) supérieur au nombre d'actionneurs, ce qui permet de concevoir des systèmes plus légers et moins coûteux, au prix d'une complexité accrue de la commande. La propriété de platitude différentielle, applicable lorsque la distribution de masse du robot est soigneusement dimensionnée, permet de paramétrer entièrement la trajectoire du système à partir d'un ensemble réduit de variables dites "plates". Le problème identifié est précis : pour les trajectoires à faible vitesse, les modèles dynamiques simplifient souvent le frottement, une hypothèse qui induit des oscillations résiduelles de l'effecteur autour de la position cible, dégradant la précision de positionnement. Pour y remédier, les auteurs proposent de coupler la commande par platitude différentielle avec une couche de commande optimale, en minimisant des indices de performance quadratiques portant sur deux grandeurs distinctes : l'effort de commande (couple moteur) et l'énergie potentielle de l'articulation passive. La minimisation de l'énergie potentielle s'avère particulièrement intéressante car elle produit des lois de mouvement robustes aux variations de raideur et d'amortissement de l'articulation passive, un point critique lorsque les paramètres mécaniques réels dévient des valeurs nominales du modèle. Les résultats, validés par simulations numériques, montrent que cette approche réduit efficacement les oscillations sans nécessiter une modélisation exhaustive du frottement. Ce travail s'inscrit dans une tradition de recherche sur les manipulateurs sous-actionnés comme le Pendubot ou les bras à liaisons flexibles, où le compromis légèreté/contrôlabilité reste un sujet actif depuis les années 1990. La platitude différentielle, formalisée notamment par Fliess et al., trouve ici une extension vers la planification de trajectoires optimales. Les approches concurrentes incluent la commande par modes glissants et les régulateurs LQR classiques, moins adaptés aux non-linéarités de ces systèmes. L'étape suivante naturelle serait une validation expérimentale sur prototype physique, absente de cette version de l'article, ainsi qu'une extension aux robots 3D non planaires.

UELa platitude différentielle est un cadre théorique formalisé par le chercheur français Michel Fliess, mais cette extension reste au stade simulation sans partenaire industriel européen identifié.

RecherchePaper
1 source
Un cadre de recherche guidé par l'accessibilité de Hamilton-Jacobi pour la navigation intérieure planaire sûre et efficace des robots
141arXiv cs.RO 

Un cadre de recherche guidé par l'accessibilité de Hamilton-Jacobi pour la navigation intérieure planaire sûre et efficace des robots

Des chercheurs ont publié sur arXiv (référence 2504.17679) un framework de navigation intérieure combinant deux familles d'algorithmes jusqu'ici utilisées séparément : la reachability hamiltonienne-jacobienne (HJ), calculée hors-ligne, et la recherche sur graphe, exécutée en ligne. Le principe : les fonctions de valeur HJ, précomputées sur la géométrie de l'environnement, servent à la fois d'heuristiques informatives et de contraintes de sécurité proactives pour guider la recherche sur graphe en temps réel. Le système a été validé en simulation extensive et dans des expériences en conditions réelles, incluant des environnements avec présence humaine. Aucun modèle de robot spécifique ni aucune entreprise commerciale ne sont mentionnés dans la publication, qui s'inscrit dans un cadre académique pur. L'intérêt principal de cette approche réside dans la gestion du compromis entre sécurité garantie et efficacité computationnelle, un point de friction classique pour les robots mobiles en intérieur (AMR, plateformes logistiques). La reachability HJ offre des garanties théoriques solides sur l'évitement d'obstacles, mais elle souffre d'une limitation structurelle : elle suppose une connaissance complète de l'environnement, ce qui la rend difficilement applicable à des espaces dynamiques ou partiellement inconnus. En intégrant la reachability comme heuristique plutôt que comme planificateur principal, les auteurs contournent cette contrainte tout en amortissant le coût de calcul en ligne. Les résultats annoncés montrent une amélioration consistante face aux méthodes de référence, tant en efficacité de planification qu'en sécurité, mais les métriques précises (temps de cycle, taux de collision) ne sont pas détaillées dans le résumé disponible. La reachability HJ est un outil issu de la théorie du contrôle optimal, historiquement utilisé pour la vérification formelle de systèmes cyber-physiques. Son application à la robotique mobile n'est pas nouvelle, mais son couplage avec des algorithmes de recherche sur graphe type A* pour surmonter la contrainte de connaissance globale de l'environnement représente une direction de recherche active. Ce travail se positionne face aux approches purement apprentissage (VLA, politiques end-to-end) en revendiquant des garanties formelles absentes des méthodes neuronales. Les prochaines étapes naturelles incluent l'extension à des espaces 3D ou à des robots non-holonomes, ainsi qu'une validation sur des plateformes industrielles réelles.

RecherchePaper
1 source
Planification de trajectoire STL et analyse des risques pour la collaboration humain-robot avec un drone multi-rotors
142arXiv cs.RO 

Planification de trajectoire STL et analyse des risques pour la collaboration humain-robot avec un drone multi-rotors

Des chercheurs ont publié sur arXiv (référence 2509.10692, troisième révision en avril 2026) un framework de planification de mouvement et d'analyse de risque pour la collaboration humain-robot avec un véhicule aérien multirotor. Le coeur du système repose sur la Signal Temporal Logic (STL), un formalisme mathématique permettant d'encoder des objectifs de mission structurés : contraintes de sécurité, exigences temporelles, et préférences humaines incluant l'ergonomie et le confort de l'opérateur. Un planificateur par optimisation génère des trajectoires dynamiquement faisables en tenant compte des dynamiques non-linéaires du drone et de ses contraintes d'actuation. Pour résoudre le problème d'optimisation non-convexe et non-lisse qui en résulte, le framework adopte des approximations de robustesse différentiables combinées à des méthodes de gradient. Le système inclut également un mécanisme de replanification en ligne déclenché par événements, activé lorsque des perturbations menacent les marges de sécurité. La validation s'appuie exclusivement sur des simulations MATLAB et Gazebo, sur une tâche de remise d'objet inspirée de la maintenance de lignes électriques. Ce travail adresse un verrou réel dans le déploiement de drones en environnement industriel partagé : la cohabitation sûre avec des techniciens humains dont la posture est incertaine et dynamique. L'analyse de risque probabiliste quantifie la vraisemblance de violations de spécifications sous incertitude de pose humaine, ce qui représente une avancée par rapport aux approches conservatrices à marge fixe. La replanification événementielle permet une récupération en ligne sans interrompre la mission, un critère déterminant pour les applications en conditions réelles. Cela dit, l'absence de validation physique sur hardware réel constitue une limite importante : le gap sim-to-real pour les drones en proximité humaine reste un problème ouvert, et les résultats en simulation Gazebo ne peuvent pas être directement extrapolés à un déploiement terrain. Le contexte de ce travail s'inscrit dans un effort plus large de la communauté robotique aérienne pour rendre les drones industriels opérables à proximité immédiate des travailleurs, notamment dans les secteurs de l'énergie et de la maintenance d'infrastructures. Côté concurrence, des acteurs comme Skydio (USA) ou Flyability (Suisse) avancent sur des drones robustes en environnement contraint, mais sans formalisme STL ni modèle explicite d'interaction humain-robot. En Europe, des projets académiques financés par l'ANR et H2020 explorent des pistes similaires. La prochaine étape naturelle pour ce framework serait une validation sur banc physique avec un multirotor réel et des opérateurs humains instrumentés, condition sine qua non avant toute intégration industrielle.

UEDes projets ANR et H2020 explorent des approches similaires ; ce framework STL pourrait alimenter la recherche européenne sur les drones industriels en proximité humaine, notamment pour la maintenance d'infrastructures énergétiques.

RecherchePaper
1 source
DAG-STL : un cadre hiérarchique pour la planification de trajectoires zéro-shot sous contraintes de logique temporelle signalée
143arXiv cs.RO 

DAG-STL : un cadre hiérarchique pour la planification de trajectoires zéro-shot sous contraintes de logique temporelle signalée

Des chercheurs ont publié DAG-STL, un cadre hiérarchique de planification de trajectoires pour robots opérant sous contraintes de Signal Temporal Logic (STL), une logique formelle permettant de spécifier des tâches robotiques structurées dans le temps. Le pipeline decompose-allocate-generate fonctionne en trois étapes : il décompose d'abord une formule STL en conditions de progression d'accessibilité et d'invariance, liées par des contraintes de synchronisation partagées ; il alloue ensuite des waypoints temporels via des estimations d'accessibilité apprises ; enfin, il synthétise les trajectoires entre ces waypoints à l'aide d'un générateur basé sur la diffusion. Les expériences ont été conduites sur trois benchmarks standards : Maze2D, OGBench AntMaze, et le domaine Cube, avec un environnement personnalisé incluant une référence par optimisation. DAG-STL surpasse significativement l'approche concurrente de diffusion guidée par robustesse directe sur des tâches STL à long horizon, et récupère la majorité des tâches solubles par optimisation classique tout en conservant un avantage computationnel notable. L'apport principal de ce travail est de résoudre la planification STL en contexte zero-shot, c'est-à-dire sans avoir jamais vu la tâche cible lors de l'entraînement, et sans modèle analytique de la dynamique du système. Pour les intégrateurs et décideurs en robotique, cela signifie qu'un robot équipé de DAG-STL pourrait recevoir une spécification temporelle formelle inédite et en dériver un plan exécutable uniquement depuis des données de trajectoires génériques préenregistrées. La séparation explicite entre raisonnement logique et réalisation physique de la trajectoire est une décision architecturale structurante : elle réduit les problèmes de planification globale long-horizon à une série de sous-problèmes plus courts et mieux couverts par les données. Le cadre introduit également une métrique de cohérence dynamique sans rollout et un mécanisme de replanification hiérarchique en ligne, deux mécanismes qui adressent directement le gap simulation-réel, sujet central des débats sur le sim-to-real dans les VLA (Vision-Language-Action models). DAG-STL s'inscrit dans un courant de recherche actif qui cherche à doter les robots d'une capacité de généralisation formellement vérifiable, à la croisée de la planification sous contraintes logiques temporelles et des modèles génératifs de trajectoires. La STL est un langage étudié depuis les années 2000 en vérification formelle, mais son application à la planification robotique offline reste difficile faute de modèles dynamiques disponibles dans des environnements réels. Les approches concurrentes incluent les méthodes d'imitation learning task-spécifiques et les planificateurs à base de modèle explicite, que DAG-STL vise à dépasser sur le critère de généralisation. Le preprint est disponible sur arXiv (2604.18343) et les prochaines étapes naturelles seraient une validation sur des plateformes physiques, notamment en manipulation et navigation réelle, pour confirmer les gains observés en simulation.

RecherchePaper
1 source
ShapeGen : génération de données robotiques pour la manipulation par catégorie d'objets
144arXiv cs.RO 

ShapeGen : génération de données robotiques pour la manipulation par catégorie d'objets

ShapeGen, présenté dans un preprint arXiv (2604.15569) publié en avril 2026, propose une méthode de génération automatique de données d'entraînement pour les politiques de manipulation robotique. L'enjeu central est la généralisation intra-catégorie : un robot doit savoir saisir n'importe quelle tasse, bouteille ou outil, pas uniquement les objets vus pendant l'entraînement. La méthode opère en deux étapes. La première construit une bibliothèque de formes 3D (Shape Library) en apprenant des déformations spatiales (warpings) qui font correspondre des points fonctionnellement équivalents entre objets d'une même catégorie. La seconde étape, Function-Aware Generation, exploite cette bibliothèque pour produire automatiquement des démonstrations physiquement plausibles sur de nouveaux objets géométriquement variés, avec une annotation humaine minimale. Le pipeline est dit "simulator-free" : il génère des données directement en 3D, sans recourir à un moteur de simulation classique comme MuJoCo ou Isaac Sim. Des expériences en environnement réel valident l'amélioration de la généralisation des politiques ainsi entraînées. Le problème adressé est structurel dans le déploiement industriel des bras manipulateurs : collecter manuellement des corpus de démonstrations sur des centaines de variantes d'objets est coûteux en main-d'oeuvre et logistiquement difficile. ShapeGen automatise cette diversification morphologique, ce qui pourrait réduire significativement le coût de préparation des données pour des politiques visuomotrices (VLA, diffusion policies). Si les résultats réels se confirment à plus grande échelle, cela allège directement le goulot d'étranglement data dans le cycle de développement robotique, en particulier pour les intégrateurs qui doivent adapter des cellules à des référentiels produits variables. La claim "simulator-free" mérite cependant d'être nuancée : le pipeline repose sur des modèles 3D et des transformations géométriques qui constituent en eux-mêmes une forme de simulation implicite. Les benchmarks présentés restent limités en termes de diversité de tâches et d'objets testés. La généralisation intra-catégorie est un axe de recherche actif depuis plusieurs années, exploré notamment via des approches comme PointNet, Category-Level 6D Pose Estimation (Wang et al., 2019) ou les politiques basées sur des représentations implicites (NeRF, SDF). ShapeGen se positionne dans la lignée des travaux sur la génération de données synthétiques pour la manipulation, concurrençant des approches comme RoboGen ou MimicGen (NVIDIA), qui utilisent également la génération automatique pour diversifier les démos. Le projet est affilié à des auteurs du milieu académique (page projet hébergée sur GitHub personnel), sans affiliation industrielle explicite déclarée dans le preprint. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés (RLBench, FurnitureBench) et une intégration dans des pipelines VLA existants pour mesurer le gain réel sur des tâches longue-distance.

IA physiqueActu
1 source
GIST : extraction de connaissances multimodales et ancrage spatial par topologie sémantique intelligente
145arXiv cs.RO 

GIST : extraction de connaissances multimodales et ancrage spatial par topologie sémantique intelligente

Des chercheurs ont publié GIST (Grounded Intelligent Semantic Topology), un pipeline de traitement multimodal capable de transformer un nuage de points 3D capturé avec un équipement grand public en une carte de navigation sémantiquement annotée. Le système construit d'abord une carte d'occupation 2D, en extrait la topologie spatiale, puis y superpose une couche sémantique légère par sélection intelligente de keyframes. Quatre modules sont démontrés en aval : un moteur de recherche sémantique capable d'inférer des alternatives catégorielles quand la correspondance exacte échoue, un localisateur one-shot atteignant 1,04 mètre d'erreur de translation moyenne (top-5), un classificateur de zones segmentant le plan de sol en régions sémantiques de haut niveau, et un générateur d'instructions de navigation en langage naturel ancré visuellement dans des repères contextuels. Une évaluation in situ sur cinq participants affiche un taux de succès de navigation de 80 % en s'appuyant uniquement sur des instructions verbales. L'intérêt pour les intégrateurs industriels réside dans l'approche bas coût : GIST ne requiert pas de LiDAR haute précision, mais exploite un nuage de points mobile grand public, ce qui abaisse significativement le seuil d'entrée pour des déploiements en entrepôt, hôpital ou grande surface. La robustesse à la distribution longue des sémantiques visuelles, problème classique dans les environnements retail denses où les rayonnages changent fréquemment, est explicitement adressée, là où les VLMs (Vision-Language Models) courants échouent sur le grounding spatial en environnement encombré. Cela dit, l'évaluation reste exploratoire (N=5), et les résultats ne constituent pas une validation à l'échelle industrielle. Le papier s'inscrit dans un courant de recherche actif autour de la navigation sémantique pour l'IA incarnée, en concurrence directe avec des approches comme les semantic maps dérivées de NeRF ou les pipelines SLAM enrichis par LLM. Côté Europe, des acteurs comme Enchanted Tools (robots hospitaliers) ou Exotec (systèmes AMR pour entrepôts) pourraient trouver dans ce type de représentation topologique une brique utile pour la localisation fine et la génération d'instructions opérateur. L'article est disponible en preprint sur arXiv (2604.15495) et n'a pas encore été soumis à évaluation par les pairs au moment de sa publication.

UEDes acteurs français comme Enchanted Tools (robots hospitaliers) et Exotec (AMR entrepôts) pourraient exploiter ce type de cartographie sémantique bas coût pour améliorer la localisation fine et la génération d'instructions opérateur, sans investissement LiDAR haute précision.

RecherchePaper
1 source
Transfert de compétences entre géométries différentes en une seule démonstration par décomposition en parties
146arXiv cs.RO 

Transfert de compétences entre géométries différentes en une seule démonstration par décomposition en parties

Des chercheurs ont publié le 20 avril 2026 (arXiv:2604.15455) une méthode permettant à un robot d'apprendre un geste à partir d'une seule démonstration, puis de le transférer à des objets de formes radicalement différentes, sans nouvel entraînement. L'approche repose sur une décomposition sémantique : plutôt que de comparer un objet entier à un autre, le système identifie les parties fonctionnelles pertinentes (poignée, bord, surface de contact) et transfère les points d'interaction entre les pièces homologues de l'objet de démonstration et de l'objet cible. Des modèles génératifs de formes à faible coût de données construisent automatiquement une fonction objectif qui optimise l'alignement de ces points sur les parties critiques pour l'exécution du skill. Les validations couvrent plusieurs skills et familles d'objets, en simulation et en environnement réel. Ce résultat est notable car il s'attaque directement au "demo-to-reality gap" géométrique : la majorité des systèmes actuels de transfert de skills, y compris ceux basés sur des Visual Language Action models (VLA), peinent dès que la forme de l'objet cible s'écarte significativement de celle vue lors de l'apprentissage. La décomposition en parties découple la variabilité de forme globale de la logique d'interaction locale, ce qui augmente mécaniquement le domaine de généralisation sans multiplier les données d'entraînement. Pour un intégrateur industriel ou un équipementier travaillant sur des lignes multi-références, c'est une piste concrète pour réduire le coût de re-programmation à chaque changement de référence produit. Le problème du transfert de skills en robotique est étudié depuis des années sous différents angles : apprentissage par démonstration (LfD), correspondances fonctionnelles entre objets, ou plus récemment les VLA pré-entraînés sur larges corpus vidéo (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA). Cette approche se positionne dans la lignée des travaux sur le raisonnement compositionnel, qui cherchent à représenter les objets non comme des blobs de points mais comme des assemblages de parties sémantiques, une direction explorée également par des groupes comme le MIT CSAIL et Stanford. Aucun partenariat industriel ni déploiement terrain n'est annoncé à ce stade : il s'agit d'une contribution académique, prometteuse mais encore à valider sur des skills complexes et des environnements fortement non structurés.

RechercheActu
1 source
Mémoire à long terme pour agents VLA dans l'exécution de tâches en environnement ouvert
147arXiv cs.RO 

Mémoire à long terme pour agents VLA dans l'exécution de tâches en environnement ouvert

Une équipe de chercheurs a publié le 22 avril 2026 sur arXiv (ref. 2504.15671) les résultats de ChemBot, un système robotique conçu pour automatiser des protocoles d'expérimentation chimique complexes en laboratoire. ChemBot repose sur une architecture à deux couches couplant un agent IA planificateur à un modèle Vision-Language-Action (VLA) baptisé Skill-VLA, capable de décomposer hiérarchiquement des tâches longues, typiquement des protocoles multi-étapes, puis de les exécuter sur des robots collaboratifs. Le système intègre une mémoire persistante à double niveau qui archive les trajectoires réussies sous forme d'assets réutilisables, et s'appuie sur un serveur Model Context Protocol (MCP) pour orchestrer les sous-agents et les outils. Un mécanisme d'inférence asynchrone basé sur la prédiction d'états futurs est également implémenté pour réduire les discontinuités de trajectoire, un défaut récurrent des VLA standards. Les expériences rapportées montrent des taux de succès et une précision opérationnelle supérieurs aux baselines VLA existantes sur des scénarios longs et multi-étapes. Ce travail adresse une limite structurelle bien documentée des modèles VLA : leur incapacité à capitaliser sur les expériences passées, ce qui force le système à recommencer par tâtonnements à chaque nouvelle session. En intégrant une mémoire persistante récupérable, ChemBot réduit concrètement le "trial-and-error gap" dans des environnements à longue horizon de planification, un problème critique pour l'automatisation de laboratoire où une erreur en milieu de protocole peut invalider toute une expérience. C'est également une démonstration applicative du sim-to-real dans un domaine non industriel, le laboratoire chimique, traditionnellement peu couvert par les benchmarks robotiques. Pour les intégrateurs B2B dans le pharma ou la recherche chimique, cela constitue un signal concret vers des robots de laboratoire autonomes capables de gérer des workflows non déterministes. Les modèles VLA ont connu une montée en puissance rapide depuis 2023 avec des travaux comme RT-2 (Google DeepMind), OpenVLA et Pi-0 (Physical Intelligence), mais la majorité des déploiements restent limités à des tâches courtes et répétitives. ChemBot se positionne dans le segment émergent des "long-horizon VLA", aux côtés de travaux comme SayCan ou des architectures hiérarchiques de Carnegie Mellon. Aucun déploiement industriel n'est annoncé à ce stade, il s'agit d'une publication académique avec validation sur robots collaboratifs en environnement contrôlé. Les prochaines étapes logiques incluent des tests sur des plateformes comme les robots Universal Robots ou Franka, et une intégration potentielle avec des systèmes LIMS existants dans les laboratoires pharmaceutiques.

RechercheOpinion
1 source
Articulation pneumatique reconfigurable pour rigidification sélective et verrouillage de forme dans les robots à croissance végétale
148arXiv cs.RO 

Articulation pneumatique reconfigurable pour rigidification sélective et verrouillage de forme dans les robots à croissance végétale

Des chercheurs ont publié le 22 avril 2026 sur arXiv (référence 2604.15907) une architecture de joint pneumatique reconfigurable (RPJ) destinée aux robots de type "vine", ces structures souples qui progressent par éversion à l'extrémité, à la manière d'une liane se déployant. Le RPJ se compose de chambres pneumatiques réparties symétriquement le long du corps du robot : lorsqu'elles sont pressurisées, elles augmentent localement la rigidité en flexion sans interrompre la croissance continue du robot. Le système intègre un pilotage par tendons pour la direction et une station de base compacte permettant l'éversion en l'air. Les essais expérimentaux démontrent une capacité de transport de charge utile atteignant 202 g en espace libre, une rétention de forme améliorée en courbure, une déflexion gravitationnelle réduite sous charge, et une rétraction en cascade des modules. Ce résultat s'attaque à la limite structurelle fondamentale des robots vine : leur faible rigidité axiale les cantonne aujourd'hui essentiellement à la navigation passive dans des espaces confinés, où ils progressent sans effort mécanique significatif. En introduisant une rigidité sélective et localisée, le RPJ ouvre la voie à des tâches de manipulation active, tri d'objets, exploration adaptative en environnement non contraint, sans sacrifier la compliance globale qui fait la valeur de ces robots pour naviguer en milieu encombré. Les auteurs comparent les performances aux mécanismes par "layer jamming" (blocage par compression de couches), et les résultats sont jugés comparables, ce qui est notable : le layer jamming est jusqu'ici la référence pour ce type de rigidification variable dans les robots souples. Il faudra cependant attendre des validations sur des tâches réelles avant de parler de transfert industriel. Les robots vine sont étudiés depuis une dizaine d'années, notamment par les groupes de Stanford et de l'Università Sant'Anna di Pisa, pour des applications médicales et de recherche en environnements dangereux. L'approche RPJ proposée ici se distingue par son architecture modulaire et son bilan de pression modéré pour l'éversion, deux points qui facilitent une éventuelle industrialisation. Aucun partenaire industriel ni calendrier de commercialisation n'est mentionné dans ce papier de recherche fondamentale. Sur le front concurrentiel, les robots souples à rigidité variable intéressent aussi bien les fabricants d'endoscopes robotisés que les développeurs de bras collaboratifs légers ; des acteurs comme Festo ou des spin-offs universitaires européens suivent ce segment. La prochaine étape logique serait une démonstration sur des tâches de tri en conditions semi-réelles avec des charges et géométries variées.

UEL'Università Sant'Anna di Pisa (EU) est l'un des groupes de référence mondiaux sur les vine robots et Festo (acteur européen) surveille ce segment des robots souples à rigidité variable, mais ce papier arXiv ne génère pas d'impact opérationnel immédiat pour l'industrie française ou européenne.

RecherchePaper
1 source
Estimation de forme des robots continus par graphes de facteurs et développement de Magnus
149arXiv cs.RO 

Estimation de forme des robots continus par graphes de facteurs et développement de Magnus

Des chercheurs ont publié le 22 avril 2026 sur arXiv une méthode de reconstruction de forme pour manipulateurs continus (continuum robots), ces bras flexibles à courbure infinie utilisés notamment en chirurgie mini-invasive et en inspection de conduites. Le système combine une paramétrisation GVS (Geometric Variable Strain) en basse dimension avec un graphe de facteurs, les deux éléments étant liés par un facteur cinématique inédit dérivé de l'expansion de Magnus du champ de déformation. Évalué en simulation sur un robot continu à câbles de 0,4 m de longueur, le pipeline atteint des erreurs de position moyennes inférieures à 2 mm dans trois configurations de capteurs distinctes, et divise par six l'erreur d'orientation par rapport à une ligne de base par régression de processus gaussien (GP) lorsque seules des mesures de position sont disponibles. Aucun déploiement matériel réel n'est encore rapporté : il s'agit d'un résultat de simulation validé sur préprint, pas d'un produit commercialisé. L'intérêt pour les intégrateurs et les équipes de R&D est double. D'abord, la méthode produit un vecteur d'état compact directement exploitable par des boucles de contrôle model-based, ce que les approches purement probabilistes basées sur la discrétisation spatiale des tiges de Cosserat ne permettent pas sans un coût computationnel croissant avec la résolution. Ensuite, l'incertitude reste quantifiée, ce que les méthodes paramétriques classiques sacrifient au profit de la compacité. Pour le secteur chirurgical en particulier, où la redondance et la sécurité certifiable sont des prérequis réglementaires, la combinaison compacité-incertitude représente un progrès méthodologique tangible, à condition qu'il se confirme sur hardware réel. Les manipulateurs continus constituent un axe de recherche actif depuis les années 2000, porté notamment par les laboratoires travaillant sur la chirurgie robotique (Intuitive Surgical côté industriel, groupes académiques comme le King's College London ou la TU Delft côté recherche). Les approches concurrentes incluent les modèles de tige de Cosserat discrétisés, les réseaux de neurones pour la cinématique directe et les processus gaussiens, chacun présentant un compromis différent entre précision, temps de calcul et structure probabiliste. La prochaine étape attendue est une validation expérimentale sur banc physique avec bruit de capteur réel, condition sine qua non avant toute intégration dans un système de contrôle clinique ou industriel.

UELes laboratoires européens actifs en robotique chirurgicale (dont TU Delft) pourraient intégrer cette brique algorithmique dans leurs travaux sur les boucles de contrôle certifiables, à condition d'une validation hardware confirmée.

RecherchePaper
1 source
Contrôle de densité multi-robots sûr et économe en énergie par optimisation sous contraintes EDP pour une autonomie longue durée
150arXiv cs.RO 

Contrôle de densité multi-robots sûr et économe en énergie par optimisation sous contraintes EDP pour une autonomie longue durée

Une équipe de chercheurs a publié le 22 avril 2026 (arXiv:2604.15524) un framework de contrôle de densité pour flottes de robots mobiles, conçu pour garantir simultanément la sécurité spatiale et la durabilité énergétique sur de longues durées d'autonomie. Le système encode le mouvement stochastique de chaque robot via l'équation de Fokker-Planck, une EDP (équation aux dérivées partielles) qui opère au niveau de la densité de population plutôt que robot par robot. Des fonctions de Lyapunov et des fonctions de barrière de contrôle (CBF) sont intégrées à cette EDP pour assurer le suivi d'une densité cible, l'évitement d'obstacles, et la suffisance énergétique sur plusieurs cycles de recharge. Le tout se résout comme un programme quadratique, ce qui permet une exécution en boucle fermée en temps réel. L'intérêt industriel est réel pour les déploiements AMR à grande échelle : gérer une flotte non plus comme une somme d'agents indépendants mais comme un champ de densité réduit la charge de calcul et offre des garanties formelles de sécurité collective. La prise en compte explicite des incertitudes de localisation et de mouvement, ainsi que des contraintes de recharge, répond à deux points de friction majeurs dans les déploiements logistiques longue durée. Les résultats sont toutefois issus de simulations étendues et d'une expérience multi-robot dont l'échelle n'est pas précisée dans le résumé, ce qui limite pour l'instant la portée des conclusions. Ce travail s'inscrit dans une tendance de fond qui cherche à étendre les méthodes formelles de contrôle (CBF, CLF) aux systèmes multi-agents à grande échelle, un terrain où des groupes comme le MIT CSAIL, Georgia Tech ou l'INRIA (côté européen) sont actifs. Les approches EDP pour flottes robotiques restent peu déployées industriellement malgré leur maturité théorique. Les prochaines étapes naturelles seraient une validation sur flottes réelles de taille significative, ainsi qu'une intégration dans des middlewares ROS 2 pour tester la robustesse hors laboratoire.

RecherchePaper
1 source