Aller au contenu principal

Dossier Physical Intelligence — π0 — page 9

475 articles · page 9 sur 10

Physical Intelligence et la famille π0 : modèles fondation cross-embodiment, transfert de compétences entre robots, levées Lux Capital et OpenAI Startup Fund.

PL-Universe Robotics dévoile sa gamme de produits d'IA physique industrielle 2.0
401Pandaily Chine/AsieActu

PL-Universe Robotics dévoile sa gamme de produits d'IA physique industrielle 2.0

PL-Universe Robotics, start-up chinoise créée il y a seize mois, a présenté ce qu'elle nomme sa "Product Matrix 2.0", articulée autour de deux produits : AcCI, une solution de collecte de données multi-modale affichant une précision annoncée sub-millimétrique, et Dabai, un module robotique dédié au chargement et déchargement industriel intelligent. AcCI combine des interfaces de contrôle VR, maître-esclave et joystick, et capture simultanément des données de force, de couple, de pose, de retour tactile et de vision en boucle fermée. L'annonce s'accompagne d'une stratégie d'écosystème qualifiée d'"all-domain symbiotic" et d'un appel ouvert à des partenaires industriels mondiaux. L'enjeu déclaré est le goulot d'étranglement des données dans le déploiement à grande échelle de l'IA physique, un problème que le secteur reconnaît largement. Une plateforme de collecte end-to-end multi-modale, si elle tient ses promesses, répondrait à un besoin concret pour les intégrateurs cherchant à constituer des jeux de données de démonstration de qualité industrielle. Cependant, cette annonce reste au stade déclaratif : aucun client n'est nommé, aucun volume de déploiement n'est communiqué, et la précision sub-millimétrique est avancée sans conditions de test ni contexte de tâche précisés, ce qui rend toute évaluation indépendante impossible pour l'instant. PL-Universe s'inscrit dans un écosystème très concurrentiel : en Chine, Unitree Robotics et DEEP Robotics avancent sur le déploiement d'humanoïdes industriels, tandis qu'à l'international, Physical Intelligence avec Pi-0, Apptronik et 1X Technologies ont déjà des bases installées ou des contrats actifs sur des pipelines de données robotiques. La société cible un marché qu'elle évalue à "plusieurs milliers de milliards de yuans", une projection ambitieuse et invérifiable à ce stade. Aucune tarification ni date de disponibilité commerciale n'a été précisée ; la prochaine étape annoncée est le recrutement de partenaires d'écosystème à l'échelle mondiale, selon un modèle stratégique que l'entreprise décrit comme "1+N+infini".

1 source
Pro Universe Robotics dévoile sa gamme de produits d'IA incarnée industrielle 2.0
402Pandaily 

Pro Universe Robotics dévoile sa gamme de produits d'IA incarnée industrielle 2.0

Pro Universe Robotics a présenté son "Product Matrix 2.0", comprenant deux nouvelles offres : AcCI, une solution d'acquisition de données multimodale à précision sub-millimétrique, et le module Dabai, dédié au chargement et déchargement intelligent par robot. AcCI intègre des technologies de contrôle maître-esclave, de téléopération VR et de manette, et capture des données de force, couple, pose, retour tactile et vision, avec une boucle fermée end-to-end. La société lance simultanément une stratégie d'écosystème baptisée "1+N+infinity" et recrute des partenaires mondiaux pour cibler ce qu'elle décrit comme un marché d'intelligence incarnée industrielle à "trillion de yuans" (environ 138 milliards de dollars). Fondée il y a 16 mois seulement, l'entreprise n'a communiqué ni client ni déploiement terrain confirmé. La collecte de données haute qualité reste l'un des principaux goulots d'étranglement pour le déploiement à grande échelle de robots industriels physiquement intelligents. Une solution d'acquisition multimodale en boucle fermée - force, couple, tactile, visuel, pose - répond directement à ce besoin, notamment pour entraîner des VLA (Vision-Language-Action models) sur des tâches de manipulation complexe comme le chargement et déchargement de pièces. Si la précision sub-millimétrique annoncée se confirme en conditions réelles, ce serait un atout concret pour constituer des datasets d'entraînement denses. Cependant, le communiqué ne fournit ni benchmark indépendant, ni volume de données collectées, ni résultats mesurables sur le terrain. Pro Universe Robotics s'inscrit dans un secteur très compétitif : Physical Intelligence avec Pi-0, Figure AI avec le Figure 03, Apptronik, mais aussi des acteurs spécialisés dans la téléopération et la capture de données comme Embodied Intelligence ou Scale AI. La revendication "global-first" sur l'acquisition fusionnée haute précision est difficile à vérifier sans étude comparative indépendante. L'ambition affichée d'un marché au trillion de yuans est une projection courante dans les annonces robotiques chinoises, où l'écart entre ambition déclarée et réalité commerciale reste souvent important. La prochaine étape déterminante sera la signature de partenaires industriels concrets au sein de l'écosystème annoncé.

Chine/AsieActu
1 source
Moore Threads et Guangyun Intelligence s'associent pour bâtir une base d'IA physique souveraine avec calcul national et simulation
403Pandaily 

Moore Threads et Guangyun Intelligence s'associent pour bâtir une base d'IA physique souveraine avec calcul national et simulation

Moore Threads et Guangyun Intelligence ont annoncé un partenariat stratégique, selon le média financier chinois IPO Zaozhidao. L'accord associe les GPU polyvalents de Moore Threads et son cluster de calcul intelligent Kua'e à la plateforme de simulation propriétaire de Guangyun Intelligence, articulée autour d'une approche intégrée "solve-measure-generate" (résolution, mesure, génération). L'objectif commun est de produire à grande échelle des données synthétiques haute-confiance pour le développement de l'IA incarnée (embodied AI). Aucun chiffre de volume de données, de puissance de calcul déployée ni de tarification n'a été communiqué dans l'annonce. Ce partenariat cible un verrou structurel de la robotique humanoïde : la rareté des données physiques réelles, leur coût de collecte, la couverture insuffisante des scénarios, et la difficulté à reproduire de façon stable des processus physiques complexes lors des campagnes de collecte sur robot réel. La synthèse de données de haute qualité s'impose comme voie de contournement, mais elle se heurte à des besoins en calcul en croissance exponentielle liés à l'explosion combinatoire du rendu. Le pipeline proposé, de la trajectoire réelle à la modélisation en simulation puis à l'augmentation de données, ambitionne notamment de résoudre la simulation physique de la préhension de corps souples (flexible body grasping), un défi technique clé pour les applications de manipulation industrielle. L'annonce s'inscrit dans la course chinoise à la souveraineté en IA physique. Moore Threads, fondé en 2020, positionne ses GPU comme alternative domestique aux puces Nvidia dans un contexte de restrictions américaines à l'exportation. Guangyun Intelligence se spécialise dans la simulation pour la robotique incarnée. Ce type de boucle fermée entre calcul souverain et production de données synthétiques robotiques trouve des équivalents directs dans l'écosystème occidental, notamment NVIDIA Isaac Sim, la plateforme open-source Genesis, ou les pipelines internes de Figure AI et Physical Intelligence. La portée réelle de ce partenariat reste à démontrer : l'annonce relève du cadre stratégique, sans déploiement documenté ni résultat public à ce stade.

Chine/AsieOpinion
1 source
BEACON : co-entraînement inter-domaines de politiques robotiques génératives par adaptation au mieux
404arXiv cs.RO 

BEACON : co-entraînement inter-domaines de politiques robotiques génératives par adaptation au mieux

Une équipe de chercheurs a publié sur arXiv en mai 2026 (arXiv:2605.08571) un cadre théorique baptisé BEACON -- acronyme de Best-Effort Adaptation for Cross-Domain Co-Training -- destiné à entraîner des politiques robotiques génératives lorsque les données dans le domaine cible sont rares. L'approche repose sur un mécanisme de pondération par importance : plutôt que de mélanger naïvement des démonstrations provenant de domaines sources abondants (simulation, autres environnements) avec un faible nombre de démonstrations réelles, BEACON apprend simultanément une politique visuomotrice basée sur la diffusion et des poids par échantillon source qui minimisent une fonction objectif garantissant la généralisation sur le domaine cible. Pour rendre cela praticable sur des séquences de haute dimension, les auteurs développent des estimateurs de divergence à l'échelle de l'instance, des mises à jour alternées stochastiques, et une extension multi-sources capable de pondérer des domaines sources hétérogènes. L'enjeu est directement lié au problème du sim-to-real gap, l'un des verrous principaux de la robotique de manipulation : collecter des démonstrations téléopérées dans le monde réel reste coûteux et lent, tandis que la simulation génère des données à bas coût mais au prix d'un écart de distribution souvent fatal au déploiement. BEACON montrerait, selon les auteurs, des gains de robustesse et d'efficacité de données par rapport à trois baselines majeures -- entraînement sur cibles seules, co-entraînement à ratio fixe, et alignement de features explicite -- dans des configurations sim-to-sim, sim-to-real et manipulation multi-sources. Le résultat le plus contre-intuitif est qu'en l'absence de tout objectif d'alignement explicite, BEACON produit néanmoins un alignement de représentations comme effet émergent de la pondération par divergence. Les auteurs ne fournissent pas de taux de réussite précis dans l'abstract, ce qui limite la comparaison directe avec des benchmarks publiés. Ce travail s'inscrit dans une vague de recherches sur le transfert de politiques entre domaines, portée notamment par des méthodes comme RoboAgent, DROID, ou les approches VLA (vision-language-action) de Physical Intelligence (Pi-0) et Google DeepMind (GR00T N2), qui cherchent elles aussi à tirer parti de données hétérogènes à grande échelle. Là où ces dernières misent sur des architectures généralistes entraînées sur des corpus massifs, BEACON propose un angle complémentaire et plus frugal : exploiter intelligemment des sources existantes sans disposer de millions de démonstrations. Le code et les expériences n'étant pas encore publics, il reste à confirmer si les résultats tiennent sur des tâches de manipulation réelle complexes hors du cadre contrôlé des évaluations présentées.

RechercheOpinion
1 source
ProcVLM : un modèle VLA apprenant des récompenses de progression ancrées dans les procédures pour la manipulation robotique
405arXiv cs.RO 

ProcVLM : un modèle VLA apprenant des récompenses de progression ancrées dans les procédures pour la manipulation robotique

Une équipe de recherche a publié en mai 2026 sur arXiv (référence 2605.08774) ProcVLM, un modèle vision-langage conçu pour générer des signaux de récompense denses dans les tâches de manipulation robotique à longue durée. Contrairement aux approches existantes qui s'appuient sur des étiquettes de succès en fin de trajectoire ou sur une interpolation temporelle, ProcVLM ancre son estimation de progression dans la structure procédurale de la tâche et dans les changements visuels au sein de chaque sous-étape. Le modèle adopte un paradigme "raisonner avant d'estimer" : il infère d'abord les actions atomiques restantes avant de chiffrer l'avancement global. Pour l'entraîner à grande échelle, les auteurs ont constitué ProcCorpus-60M, un corpus de 60 millions de trames annotées issues de 30 jeux de données embodied, dont est dérivé ProcVQA, un benchmark couvrant l'estimation de progression, la segmentation d'actions et la planification prospective. L'enjeu est direct pour les intégrateurs et les équipes travaillant sur la manipulation longue durée, comme l'assemblage multi-étapes, le conditionnement ou la maintenance industrielle. Les modèles de récompense classiques, en confondant temps écoulé et progression réelle, sont incapables de détecter stagnation, étapes manquées ou états d'échec intermédiaires. ProcVLM produit des estimations discriminantes intra-trajectoire, ce qui en fait un composant plus utile pour la policy optimization guidée par récompense. Les expériences publiées montrent des gains mesurés sur ProcVQA et sur des benchmarks de modèles de récompense face aux baselines représentatives. Ces résultats restent néanmoins dans le cadre de la simulation et de l'évaluation hors-ligne : aucun déploiement sur robot physique n'est annoncé. Ce travail s'inscrit dans une tendance de fond visant à améliorer la qualité des signaux de supervision pour les modèles vision-langage-action (VLA), un chantier central depuis la publication de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA. Le problème du reward shaping dans les tâches manipulatoires longues est un verrou bien identifié : le sim-to-real gap se double d'un gap supervision-comportement quand les étiquettes de succès sont trop parcimonieuses. ProcVLM propose une réponse méthodologique à ce second verrou via un corpus de supervision synthétique à 60 millions de trames, mais demeure à ce stade un preprint académique sans validation sur hardware réel annoncée. La page projet (procvlm.github.io) est en ligne, sans date de release du code ou des données précisée.

RechercheOpinion
1 source
SynapX lance SYNData : un système multimodal de collecte de données pour l'ère de l'IA incarnée
406Pandaily 

SynapX lance SYNData : un système multimodal de collecte de données pour l'ère de l'IA incarnée

SynapX, une startup fondée en janvier 2026, a annoncé le lancement de SYNData, un système de collecte de données multimodale conçu pour l'apprentissage de la manipulation dextre en robotique incarnée. Le système repose sur trois modules matériels distincts : un casque Ego à quatre caméras pour la vision première personne, des bracelets EMG (électromyographie) pour capter les signaux bioélectriques musculaires, et un exosquelette-gant bionique pour enregistrer la pose de la main, l'état de contact sur toute la paume et la distribution des forces. L'architecture permet la collecte simultanée de ces modalités, y compris en conditions d'occlusion visuelle partielle. Trois semaines seulement après sa création et sa première participation en compétition, SynapX a terminé 2e au classement mondial et 1er en Chine dans la piste "Reasoning to Action" de l'AGIBOT World Challenge, organisé dans le cadre de l'ICRA 2026. L'enjeu central que SYNData prétend résoudre est le goulot d'étranglement de la donnée physique à l'échelle. Dans le développement des modèles vision-langage-action (VLA) pour la manipulation robotique, la collecte de données haute qualité demeure le facteur limitant, davantage que l'architecture des modèles ou la maturité du hardware. Le mécanisme propriétaire Bio2Robot transforme les signaux biologiques humains en données directement exploitables par des modèles de robot, avec l'objectif déclaré de ne pas perturber le comportement naturel de l'opérateur lors de la capture. Si cette promesse tient à l'échelle, cela représenterait un avantage opérationnel significatif pour les intégrateurs cherchant à industrialiser la démonstration humaine sans pipeline de labellisation coûteux. Le contexte concurrentiel est dense : des acteurs comme Physical Intelligence avec son modèle Pi-0, NVIDIA avec GR00T N2, ou encore Agibot et 1X Technologies investissent massivement dans des pipelines de données pour la manipulation généraliste. En Chine, l'écosystème est particulièrement actif, porté par des programmes de soutien public et une communauté robotique illustrée par l'AGIBOT World Challenge lui-même. SynapX se positionne en amont de la chaîne de valeur, comme fournisseur d'infrastructure de collecte plutôt que fabricant de robot. La robustesse du classement ICRA reste à confirmer en conditions de déploiement industriel réelles, le gap entre performance en compétition et application terrain demeurant un défi structurel du secteur.

💬 Le vrai goulot en robotique, c'est pas l'archi du modèle, c'est la donnée physique à l'échelle, et SynapX l'a compris avant beaucoup. Se positionner comme fournisseur d'infra de capture plutôt que fabricant de robot, c'est malin : tu fournis à tout l'écosystème sans te battre contre Physical Intelligence ou NVIDIA sur le hardware. Trois semaines d'existence, 2e mondial à l'ICRA, bon, reste à voir si les EMG et l'exo tiennent hors compétition.

IA physiqueOpinion
1 source
Prix RBR50 2026 de l'innovation en robotique
407Robotics Business Review 

Prix RBR50 2026 de l'innovation en robotique

The Robot Report a publié pour la quinzième année consécutive son palmarès RBR50, sélectionnant 50 organisations mondiales, entre entreprises, associations et institutions académiques, pour leur innovation technologique et commerciale en robotique. L'édition 2026 intègre à la fois des habitués et de nouveaux entrants, avec une couverture allant des capteurs industriels aux rovers martiens, en passant par des solutions de fabrication, de logistique, de nouveaux matériaux et de processeurs. Parmi les distinctions spéciales : Physical Intelligence (San Francisco, fondée en 2023) reçoit le titre de Startup de l'Année ; Harvard University décroche le prix Application de l'Année pour un système d'assistance aux personnes souffrant de limitations motrices du bras ; Tatum Robotics remporte la catégorie Robots for Good pour ses applications auprès de personnes sourdes-aveugles. La cérémonie de remise des prix est prévue lors du dîner de gala du Robotics Summit & Expo à Boston. Le palmarès 2026 reflète plusieurs dynamiques structurantes pour les acteurs industriels : essor des manipulateurs mobiles, développement des systèmes portables (wearables) et accélération de l'IA appliquée à la robotique physique. La distinction accordée à Physical Intelligence est particulièrement significative : la startup a développé pi0, l'un des premiers modèles VLA (Vision-Language-Action) à démontrer des capacités de généralisation sur des tâches physiques variées, sans reprogrammation tâche par tâche. Pour les intégrateurs et décideurs industriels, ce type de reconnaissance signale quels segments technologiques atteignent un seuil de maturité commerciale justifiant un investissement. Le palmarès inclut également les grands fournisseurs de solutions complètes pour la fabrication et la logistique, ainsi que des fabricants de composants critiques (capteurs, actionneurs, processeurs). L'inclusion d'une approche inédite de confection textile automatisée et d'un rover en opération sur Mars illustre la volonté du jury de couvrir l'étendue réelle du champ robotique en 2026. Créé en 2012, le RBR50 s'est imposé comme un repère annuel dans le secteur : selon The Robot Report, plusieurs lauréats passés ont levé des millions de dollars dans les mois suivant leur sélection, et nombre d'entre eux sont revenus sur la liste avec de nouvelles innovations. L'édition 2026 intègre aussi une dimension institutionnelle et politique notable : l'Association for Advancing Automation travaille à convaincre le Congrès américain d'adopter une stratégie nationale en robotique, tandis que MassRobotics accompagne des startups internationales dans leur accès au marché américain. Aucun acteur français ni européen n'est explicitement mentionné dans le communiqué public, bien que des entreprises comme Wandercraft, Enchanted Tools ou Pollen Robotics figurent régulièrement dans ce type de palmarès. À noter : l'article source est un teaser promotionnel invitant au téléchargement d'un rapport complet accessible sur formulaire, et ne détaille pas les critères de sélection par organisation.

BusinessActu
1 source
Encodage de la prévisibilité et de la lisibilité pour une politique de diffusion conditionnée par le style
408arXiv cs.RO 

Encodage de la prévisibilité et de la lisibilité pour une politique de diffusion conditionnée par le style

Des chercheurs ont publié sur arXiv (preprint 2503.16368, mis à jour en mai 2026) un framework baptisé Style-Conditioned Diffusion Policy (SCDP), conçu pour résoudre un compromis fondamental en collaboration humain-robot : la lisibilité des mouvements face à leur efficacité temporelle et énergétique. Le système s'appuie sur une politique de diffusion pré-entraînée qu'il enrichit via un pipeline post-entraînement léger, ajoutant un encodeur de scène et un prédicteur de conditionnement sans modifier les poids du modèle de base. À l'inférence, un module de détection d'ambiguïté détermine automatiquement si l'objectif du robot est déjà évident pour un observateur humain ; si oui, la trajectoire optimale est maintenue ; sinon, le système bascule vers des mouvements plus expressifs et intentionnels. Les évaluations portent sur des tâches de manipulation et de navigation. Ce travail adresse un point de friction concret dans le déploiement industriel des bras collaboratifs et des robots mobiles : un robot trop optimal génère des trajectoires difficiles à anticiper pour un opérateur humain, augmentant le risque d'accident et la charge cognitive. À l'inverse, rendre tous les mouvements expressifs coûte du temps de cycle et de l'énergie, ressources critiques en production. SCDP propose un arbitrage automatique et contextuel, ce qui le distingue des approches à style fixe. Le fait que le framework ne nécessite pas de réentraîner la politique de base est l'argument technique le plus fort : cela ouvre la voie à une adaptation post-déploiement sur des modèles existants, un avantage réel pour les intégrateurs qui ne peuvent pas se permettre des cycles de réentraînement complets. Les Diffusion Policies se sont imposées depuis 2023 comme architecture de référence pour l'imitation de comportements complexes, notamment via les travaux de Chi et al. (Columbia/MIT) et leur intégration dans des systèmes comme pi0 de Physical Intelligence. SCDP s'inscrit dans une vague de recherches visant à rendre ces politiques modulables sans réentraînement, une direction également explorée par des approches de guidance conditionnel et d'adaptateurs de type LoRA appliqués à la robotique. Côté lisibilité robot, les travaux sur la motion legibility remontent aux équipes de Dragan et Srinivasa (Carnegie Mellon, 2013), mais leur intégration dans des politiques génératives modernes reste peu exploitée. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans le preprint ; il s'agit d'une contribution académique dont la robustesse hors conditions contrôlées reste à démontrer.

RecherchePaper
1 source
Politiques de diffusion multi-agents extensibles pour le contrôle de couverture
409arXiv cs.RO 

Politiques de diffusion multi-agents extensibles pour le contrôle de couverture

Des chercheurs ont publié sur arXiv (identifiant 2509.17244) MADP (Multi-Agent Diffusion Policy), une approche basée sur les modèles de diffusion pour la coordination décentralisée de nuées de robots. Le principe : chaque robot génère ses actions en échantillonnant depuis une distribution jointe haute dimension, en conditionnant sa politique sur une représentation fusionnée de ses propres observations et des embeddings perceptuels reçus de ses pairs via communication locale. L'équipe évalue MADP sur le problème de couverture de terrain (coverage control), un benchmark canonique en robotique multi-agent où un groupe de robots holonomes doit couvrir efficacement un espace selon des fonctions de densité d'importance variables. La politique est entraînée par imitation learning à partir d'un expert omniscient (dit "clairvoyant"), et le processus de diffusion est paramétré par une architecture de transformer spatial permettant l'inférence décentralisée, sans coordinateur central. Les résultats présentés sont exclusivement issus de simulations. L'intérêt technique principal tient à la nature des modèles de diffusion : contrairement aux politiques classiques qui produisent une action déterministe ou une distribution gaussienne unimodale, MADP peut capturer les interdépendances entre les actions de plusieurs agents dans une distribution multi-modale complexe. Les expériences montrent que le modèle généralise à travers des densités d'agents variables et des environnements non vus à l'entraînement, surpassant les baselines état de l'art. Pour un intégrateur ou un décideur industriel, cela signifie en théorie des essaims plus robustes aux variations de flotte, aux défaillances partielles et aux reconfiguration dynamiques, sans retraining complet. La robustesse au nombre d'agents est particulièrement notable : c'est un verrou historique des approches d'apprentissage multi-agent. Le problème de couverture de terrain occupe les équipes de robotique multi-agent depuis les années 2000, avec des solutions allant de l'optimisation par diagrammes de Voronoï aux algorithmes de reinforcement learning décentralisé. L'application des modèles de diffusion aux politiques robotiques est un domaine en essor depuis les travaux sur les diffusion policies (Pearce et al., 2023) et leur extension dans des systèmes comme Pi-0 de Physical Intelligence ou les architectures ACT. MADP en étend la logique au cas multi-agent, encore peu exploré dans la littérature. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans ce preprint ; les prochaines étapes naturelles seraient une validation sur hardware réel et l'extension à des tâches au-delà de la couverture pure.

RecherchePaper
1 source
Le robot humanoïde Agibot A2 partage le tapis rouge du Met Gala avec des célébrités
410Interesting Engineering 

Le robot humanoïde Agibot A2 partage le tapis rouge du Met Gala avec des célébrités

Le 5 mai 2026, la société chinoise AGIBOT a déployé son robot humanoïde pleine taille A2 devant The Mark Hotel à New York, en marge de l'avant-soirée du Met Gala, en partenariat avec le designer Alexander Wang. L'opération marque la première présence d'un robot humanoïde à cet événement. Sur place, l'A2 a posé face aux photographes, ajusté sa posture sur demande, porté des objets et servi des boissons à des invités. Le robot a connu un accroc mineur en restant brièvement bloqué dans un ascenseur, nécessitant l'intervention du personnel, avant de reprendre ses activités. Aucune spécification technique précise (nombre de degrés de liberté, charge utile, vitesse de cycle) n'a été communiquée à cette occasion, ce qui place cet événement davantage du côté de la démonstration marketing que du déploiement opérationnel documenté. L'intérêt industriel de la séquence tient moins à la prouesse technique qu'au contexte d'exécution : naviguer dans un environnement non structuré, dense en personnes, en lumières variables et en imprévus, reste l'un des défis centraux de la robotique humanoïde. Le fait que l'A2 ait maintenu une interaction cohérente avec le public pendant plusieurs heures - même dans un cadre scénarisé - suggère des avancées réelles dans la perception et la planification de mouvement en milieu ouvert. Cela dit, les vidéos diffusées sur les réseaux sociaux montrent des scènes sélectionnées : l'accroc à l'ascenseur a été filmé et largement partagé, rappelant que la fiabilité en autonomie complète reste à démontrer dans des conditions non contrôlées. Pour les décideurs B2B et les intégrateurs, cet événement confirme surtout qu'AGIBOT vise un positionnement grand public et culturel, en complément de ses ambitions industrielles. AGIBOT, fondée en 2023 à Shanghai, fait partie d'une vague de startups chinoises de robotique humanoïde qui ont levé des centaines de millions de dollars ces deux dernières années, aux côtés d'Unitree, Leju Robotics et Fourier Intelligence. À l'international, ses concurrents directs incluent Figure AI (A2 annoncé en 2025, déployé chez BMW), Physical Intelligence (modèle Pi-0), Agility Robotics (Digit, déployé chez Amazon) et Boston Dynamics (Atlas électrique). La collaboration avec Alexander Wang et le choix du Met Gala s'inscrivent dans une stratégie de visibilité mondiale qui rappelle l'approche de Tesla avec Optimus : associer le robot à des événements culturels pour normaliser sa présence avant le déploiement à grande échelle. AGIBOT n'a pas annoncé de pilotes industriels spécifiques ni de timeline commerciale à l'issue de cet événement.

Chine/AsieOpinion
1 source
Effets inattendus de la randomisation de domaine sensible au risque pour la commande prédictive par échantillonnage à contacts multiples
411arXiv cs.RO 

Effets inattendus de la randomisation de domaine sensible au risque pour la commande prédictive par échantillonnage à contacts multiples

Des chercheurs ont publié en mai 2026 une étude préliminaire (arXiv:2605.03290) sur les effets de la randomisation de domaine sensible au risque appliquée au contrôle prédictif par échantillonnage (SPC) dans des tâches à contacts physiques denses. La randomisation de domaine (DR) consiste à entraîner un planificateur sur des variantes aléatoires des paramètres physiques, masse, friction, rigidité, pour le rendre robuste aux erreurs de modélisation. Très utilisée en apprentissage par renforcement, elle restait quasiment inexploriée dans le SPC, où la qualité des trajectoires simulées est particulièrement sensible à l'incertitude. Les auteurs comparent trois stratégies d'agrégation de rollouts sous instances de modèles randomisés : moyenne, optimiste (meilleur cas) et pessimiste (pire cas), sur la tâche Push-T, un benchmark de manipulation où un robot pousse un objet en T vers une pose cible. Les résultats révèlent un effet inattendu : la DR ne se contente pas d'améliorer la robustesse aux erreurs de modèle, elle modifie structurellement le paysage de coût perçu par l'optimiseur d'échantillonnage. Selon le profil de risque retenu, le bassin d'attraction autour des actions produisant des contacts physiques est reconfiguré différemment, ce qui influe directement sur la propension de l'optimiseur à explorer ou à éviter les configurations de contact. Pour des applications industrielles, assemblage, manipulation fine ou tri, où les contacts sont inévitables, ce couplage entre incertitude de modèle et stratégie de risque est critique : un mauvais calibrage peut rendre le SPC soit trop conservateur, soit instable face aux contacts non planifiés. La DR a été systématisée dans les simulateurs physiques comme Isaac Sim de NVIDIA et popularisée par les travaux d'OpenAI sur la manipulation dextre (projet Dactyl, 2019). Le SPC, notamment via l'algorithme MPPI (Model Predictive Path Integral), connaît un regain d'intérêt pour la robotique temps réel, en locomotion et manipulation. Cette étude constitue un premier jalon formel à l'intersection des deux approches, jusqu'ici traitées séparément. Elle s'inscrit dans un contexte plus large où les modèles VLA (Vision-Language-Action) et les approches sim-to-real de Google DeepMind ou Physical Intelligence (Pi-0) cherchent à réduire l'écart entre simulation et réalité. Les auteurs ne publient que des résultats initiaux sur une tâche simple et ne proposent pas encore de généralisation ni de calendrier applicatif, ce qui limite la portée immédiate mais ouvre un axe de recherche prometteur pour le contrôle robuste aux contacts.

RecherchePaper
1 source
LLMs pour le comportement de recherche dans les essaims de robots décentralisés
412arXiv cs.RO 

LLMs pour le comportement de recherche dans les essaims de robots décentralisés

Une équipe de chercheurs a publié en mai 2026 sur arXiv (identifiant 2605.01461) LLM-Foraging, un contrôleur décentralisé pour essaims de robots conçu pour la collecte de ressources. L'approche intègre un large modèle de langage (LLM) comme décideur tactique dans la machine d'états du CPFA (central-place foraging algorithm), à trois points précis : après un dépôt de ressource, à l'arrivée en zone centrale, et lors d'un blocage de recherche (search starvation). Chaque robot embarque son propre client LLM et l'interroge sur la base de ses seules observations locales, sans communication centralisée. Les tests ont été conduits dans le simulateur Gazebo avec des robots TurtleBot3 virtuels, sur 36 configurations couvrant des équipes de 4 à 10 robots, des arènes de 6x6 à 10x10 mètres et trois distributions de ressources (groupée, loi de puissance, aléatoire). LLM-Foraging surpasse la baseline CPFA optimisée par algorithme génétique sur l'ensemble des configurations testées, avec une consistance que les auteurs jugent supérieure. L'enjeu principal est l'absence de phase d'entraînement au déploiement. Un CPFA calibré par algorithme génétique produit des politiques figées sur une configuration donnée : tout changement de taille d'équipe, d'arène ou de distribution de ressources impose un recalcul coûteux. En substituant un LLM comme politique générale de décision, l'architecture se transfère à de nouvelles conditions sans ré-optimisation. Pour les intégrateurs de systèmes robotiques distribués, c'est une promesse de reconfigurabilité opérationnelle notable. Limite importante à retenir : l'évaluation reste entièrement en simulation, et le sim-to-real gap pour des décisions LLM dans des essaims physiques reste entièrement à démontrer. Le CPFA est un algorithme de référence en robotique d'essaim depuis les années 2010, inspiré des stratégies de fourragement des insectes sociaux. LLM-Foraging s'inscrit dans la tendance d'intégration des modèles fondationnels en robotique, aux côtés d'architectures vision-langage-action (VLA) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, mais appliquée pour la première fois aux essaims décentralisés, un domaine où les approches évolutionnaires et par apprentissage par renforcement dominaient sans alternative crédible. Aucun acteur européen n'est impliqué dans ces travaux académiques. Les prochaines étapes naturelles incluent la validation sur robots physiques, le passage à des essaims dépassant la dizaine d'unités, et l'évaluation dans des environnements dynamiques où les ressources se déplacent ou disparaissent.

RechercheActu
1 source
Les modèles de fondation tabulaires peuvent-ils guider l'exploration dans l'apprentissage de politiques robotiques ?
413arXiv cs.RO 

Les modèles de fondation tabulaires peuvent-ils guider l'exploration dans l'apprentissage de politiques robotiques ?

Une équipe de chercheurs a publié sur arXiv (référence 2604.27667) une méthode hybride dénommée TFM-S3, conçue pour améliorer l'exploration globale dans l'apprentissage de politiques robotiques tout en limitant le nombre de simulations nécessaires. L'approche alterne des mises à jour locales à haute fréquence avec des rondes de recherche globale intermittentes. À chaque ronde, TFM-S3 construit dynamiquement un sous-espace de politique de faible dimension via une décomposition en valeurs singulières (SVD), puis effectue un raffinement itératif guidé par un modèle de substitution (surrogate model). Ce modèle de fondation tabulaire pré-entraîné prédit les retours candidats à partir d'un petit ensemble de contextes, permettant un criblage à grande échelle sans multiplier les rollouts coûteux. Sur des benchmarks de contrôle continu standards, TFM-S3 accélère la convergence en phase initiale et améliore les performances finales par rapport à TD3 (Twin Delayed Deep Deterministic Policy Gradient) et des baselines à population, à budget de rollouts identique. L'enjeu central est le coût d'exploration. En robotique, l'apprentissage par renforcement dans des espaces d'action continus à haute dimension souffre d'un dilemme structurel : les méthodes locales convergent vite mais restent piégées dans des optima locaux, tandis que les méthodes globales sont plus robustes à l'initialisation mais très gourmandes en évaluations. TFM-S3 propose un compromis crédible en déléguant le criblage des candidats à un modèle tabulaire pré-entraîné. Si ces résultats se confirment sur des environnements physiques réels et pas seulement en simulation, ce serait un levier direct pour accélérer l'entraînement de politiques sur des robots industriels où chaque essai a un coût mécanique et temporel non négligeable. Cette publication s'inscrit dans une tendance croissante qui cherche à transférer les bénéfices des modèles de fondation (pré-entraînement massif, généralisation) au problème classique de l'optimisation de politique. Des approches concurrentes comme les VLA (Vision-Language-Action models) Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA misent sur l'apprentissage multimodal et l'imitation à grande échelle plutôt que sur le renforcement pur. TFM-S3 se positionne comme un outil orthogonal, compatible avec des pipelines RL existants. Il reste pour l'instant un preprint non relu par des pairs, et ses expériences se limitent aux benchmarks de contrôle continu standards de type MuJoCo, sans validation sur hardware physique annoncée à ce stade.

RecherchePaper
1 source
LLM-Flax : planification robotique généralisable par approches neuro-symboliques et grands modèles de langage
414arXiv cs.RO 

LLM-Flax : planification robotique généralisable par approches neuro-symboliques et grands modèles de langage

Des chercheurs ont publié LLM-Flax (arXiv 2604.26569v1), un framework en trois étapes conçu pour automatiser le déploiement de planificateurs de tâches neuro-symboliques sans expertise manuelle ni données d'entraînement. Le système prend en entrée uniquement un LLM hébergé localement et un fichier PDDL décrivant le domaine : l'étape 1 génère les règles de relaxation par prompting structuré avec auto-correction, l'étape 2 pilote la récupération sur échec via une politique de budget de latence, et l'étape 3 remplace entièrement le réseau GNN par un scoring d'objets zero-shot. Évalué sur le benchmark MazeNamo en grilles 10x10, 12x12 et 15x15 (8 benchmarks au total), LLM-Flax atteint un taux de succès moyen de 0,945 contre 0,828 pour la baseline manuelle, soit un gain de +0,117. Sur la configuration 12x12 Expert, où le planificateur manuel échoue complètement (SR 0,000), LLM-Flax atteint SR 0,733 ; sur 15x15 Hard, il obtient SR 1,000 contre 0,900 pour l'approche de référence. Le principal verrou adressé est le coût de transfert de domaine : adapter un planificateur symbolique à une nouvelle cellule robotique mobilise aujourd'hui des centaines de problèmes d'entraînement et l'intervention d'un expert métier, ce qui rend le déploiement à l'échelle industrielle prohibitif. La politique de budget de latence de l'étape 2, qui réserve explicitement une enveloppe d'appels LLM avant chaque séquence de récupération sur échec, adresse un problème pratique rarement traité dans la littérature : les boucles de fallback infinies qui paralysent les systèmes en production. L'étape 3 démontre la faisabilité du zero-shot avec SR 0,720 sur 12x12 Hard sans aucune donnée d'entraînement, mais bute sur la fenêtre de contexte à grande échelle, que les auteurs identifient eux-mêmes comme le principal défi ouvert. LLM-Flax s'inscrit dans la lignée des travaux combinant PDDL et LLMs pour la robotique, après SayCan (Google, 2022), Code as Policies (Google DeepMind) et ProgPrompt. Cette approche neuro-symbolique reste distinctement différente des architectures VLA end-to-end comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) : elle préserve un module de raisonnement explicite et auditable, ce qui peut constituer un avantage dans les environnements industriels certifiables. Le benchmark MazeNamo demeure un environnement de navigation 2D simplifié, éloigné des scénarios de manipulation réels ; aucun déploiement terrain n'est annoncé à ce stade, et les auteurs indiquent l'extension à des environnements multi-objets complexes comme prochaine étape.

RecherchePaper
1 source
Gouvernance par sonde atomique pour la mise à jour des compétences dans les politiques de robots compositionnels
415arXiv cs.RO 

Gouvernance par sonde atomique pour la mise à jour des compétences dans les politiques de robots compositionnels

Des chercheurs ont publié sur arXiv (preprint 2604.26689) un protocole d'évaluation pour gouverner les mises à jour de compétences dans les politiques robotiques compositionnelles. Le problème concret : les bibliothèques de skills dans les systèmes déployés sont continuellement raffinées par fine-tuning, nouvelles démonstrations ou adaptation de domaine, mais les méthodes de composition existantes (BLADE, SymSkill, Generative Skill Chaining) supposent que la bibliothèque est figée au moment du test et ne caractérisent pas l'impact d'un remplacement de skill sur la composition globale. L'équipe introduit un protocole de swap cross-version par échantillonnage couplé (paired-sampling cross-version swap) sur les tâches de manipulation robosuite. Sur une tâche bimanuelle peg-in-hole, ils documentent un effet de skill dominant : un seul ECM (Elementary Composition Module) atteint 86,7 % de taux de succès atomique tandis que tous les autres restent sous 26,7 %, et la présence ou l'absence de cet ECM dominant dans une composition déplace le taux de succès de la composition jusqu'à +50 points de pourcentage. Ils testent également une tâche de pick où toutes les politiques saturent à 100 %, rendant l'effet indéfini, et couvrent au total 144 décisions de mise à jour de skill sur trois tâches. L'enseignement industriellement pertinent est que les métriques de distance comportementale hors-politique échouent à identifier l'ECM dominant, ce qui élimine le prédicteur bon marché le plus naturel pour un système de gouvernance en production. Pour pallier cela, les auteurs proposent une sonde de qualité atomique (atomic-quality probe) combinée à un Hybrid Selector : sur T6, la sonde atomique seule se situe 23 points sous la revalidation complète (64,6 % vs 87,5 % de correspondance oracle) à coût nul par décision ; le Hybrid Selector avec m=10 ramène cet écart à environ 12 points en mobilisant 46 % du coût d'une revalidation complète. Sur la moyenne inter-tâches des 144 événements, la sonde atomique seule reste à moins de 3 points de la revalidation complète, avec une réserve liée à l'oracle mixte. Pour les intégrateurs qui déploient des robots en production continue, ce résultat signifie qu'une stratégie de revalidation sélective peut préserver l'essentiel de la qualité compositionnelle à moitié coût, sans rejouer l'intégralité du test de composition à chaque mise à jour de skill. Ce travail s'inscrit dans un corpus académique croissant autour de la composition de politiques robotiques, domaine animé notamment par des méthodes comme Generative Skill Chaining et BLADE qui ont posé les bases du typed-composition mais sans mécanisme de gouvernance post-déploiement. Il n'existe à ce stade aucun déploiement industriel annoncé, ni partenariat OEM mentionné dans le preprint : il s'agit d'un résultat de recherche fondamentale évalué uniquement en simulation (robosuite). La portée pratique dépendra de la capacité à transférer ces résultats sur des stacks de policies VLA (Vision-Language-Action) plus récents, comme pi-zero de Physical Intelligence ou GR00T N2 de NVIDIA, qui multiplient précisément les modules compositionnels mis à jour en continu. Les prochaines étapes naturelles seraient une validation sim-to-real et une intégration dans des pipelines de CI/CD pour robots, un problème d'ingénierie encore largement ouvert.

RecherchePaper
1 source
Du bruit à l'intention : ancrage des politiques VLA génératives par ponts résiduels
416arXiv cs.RO 

Du bruit à l'intention : ancrage des politiques VLA génératives par ponts résiduels

Un préprint déposé le 24 avril 2026 sur arXiv (réf. 2604.21391) présente ResVLA, une nouvelle architecture de politique VLA (Vision-Language-Action) pour le contrôle robotique. Le problème ciblé est le décalage spatiotemporel entre compréhension sémantique de haut niveau et contrôle physique de bas niveau : les VLA actuels génèrent des actions directement "à partir du bruit" (paradigme Generation-from-Noise), produisant une inefficacité de représentation et un alignement faible avec les instructions. ResVLA bascule vers un paradigme "Refinement-from-Intent" : via une analyse spectrale, le mouvement robotique est décomposé en une composante déterministe basse fréquence (l'intention globale) et une composante stochastique haute fréquence (la dynamique locale). Un pont de diffusion résiduel affine ensuite uniquement cette dynamique locale, ancré sur l'intention prédite. Les résultats déclarés incluent une convergence plus rapide que les baselines génératives standards, une robustesse aux perturbations linguistiques et aux variations d'embodiment, et des performances validées en conditions réelles, bien que le papier ne précise pas les plateformes matérielles testées ni les métriques exactes de déploiement physique. Ce travail s'attaque à une limite structurelle des VLA génératifs : ignorer la hiérarchie naturelle du mouvement nuit à l'alignement entre instruction et action. La robustesse à l'embodiment est un point concret pour les intégrateurs travaillant sur des flottes robotiques hétérogènes, où réentraîner un modèle complet par plateforme représente un coût prohibitif. La validation partielle en conditions réelles renforce la crédibilité de l'approche, même si l'absence de métriques détaillées (taux de succès par tâche, temps de cycle, nombre de démos d'entraînement) invite à la prudence avant d'extrapoler les résultats de simulation vers des déploiements industriels. Ce préprint s'inscrit dans une dynamique de recherche intense autour des VLA généralistes. Pi-0 de Physical Intelligence, OpenVLA (UC Berkeley) et les travaux RT-2 de Google DeepMind constituent les références immédiates du domaine. L'approche par résidu spectral est conceptuellement distincte des architectures de diffusion uniformes, mais ResVLA reste une contribution académique sans code public ni produit annoncé. La prochaine étape sera de voir si l'approche se confirme sur des benchmarks partagés comme LIBERO ou BridgeData V2, et si elle influence des frameworks ouverts comme LeRobot de Hugging Face, qui fédère une partie importante de la communauté robotique open-source.

UEImpact indirect et spéculatif : si ResVLA est validé sur des benchmarks partagés, LeRobot (Hugging Face, France) pourrait intégrer cette approche résiduelle, mais aucun acteur ou déploiement européen n'est impliqué à ce stade.

RechercheOpinion
1 source
Optimisation par diffusion pour accélérer la convergence des problèmes à temps minimal sur bras doubles redondants
417arXiv cs.RO 

Optimisation par diffusion pour accélérer la convergence des problèmes à temps minimal sur bras doubles redondants

Une équipe de chercheurs a publié sur arXiv (ref. 2504.16670) un cadre d'optimisation par diffusion pour résoudre le problème du temps minimum de déplacement sur un robot à double bras redondant. L'objectif est de minimiser le temps nécessaire pour qu'une configuration dual-arm suive un chemin cartésien relatif défini, tout en respectant les contraintes articulaires et l'erreur cartésienne. Les résultats annoncés sont significatifs : réduction de 35x du temps de calcul et diminution de 34 % de l'erreur cartésienne par rapport à la méthode précédente des mêmes auteurs, qui reposait sur une approche bi-niveaux avec résolution primal-dual. Ce gain de performance est important pour la robotique industrielle collaborative, où les bras doubles, typiquement utilisés en assemblage, en manipulation d'objets encombrants ou en chirurgie assistée, doivent exécuter des trajectoires précises dans des temps de cycle serrés. La méthode antérieure, basée sur le gradient, souffrait de deux limitations structurelles : une charge de calcul élevée rendant la planification en quasi-temps-réel difficile, et une incapacité à imposer directement une contrainte d'erreur cartésienne en norme infinie (L∞) le long de la trajectoire, en raison de la sparsité du gradient. Le passage à un échantillonnage probabiliste via un algorithme de diffusion permet de contourner ces deux problèmes simultanément, ce qui constitue une avancée méthodologique réelle, même si les benchmarks restent pour l'instant sur simulation. Le contexte est celui de l'essor des planificateurs de mouvement basés sur l'apprentissage et les méthodes probabilistes pour les robots à haute redondance cinématique. Les approches par diffusion, popularisées dans la génération d'images puis étendues à la robotique via des travaux comme pi0 (Physical Intelligence) ou des planificateurs de trajectoire neuronaux, gagnent du terrain face aux solveurs classiques (CHOMP, TrajOpt) sur des critères de vitesse et de généralisation. Ce travail s'inscrit dans cette tendance en restant ancré dans un cadre d'optimisation formelle (contrôle optimal), ce qui lui confère une interprétabilité que les approches purement end-to-end n'offrent pas encore. La prochaine étape naturelle serait une validation sur hardware physique avec contraintes temps-réel.

RecherchePaper
1 source
GaLa : des modèles vision-langage guidés par hypergraphe pour la planification procédurale
418arXiv cs.RO 

GaLa : des modèles vision-langage guidés par hypergraphe pour la planification procédurale

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.17241) un nouveau framework vision-langage baptisé GaLa, conçu pour améliorer la planification procédurale dans les systèmes d'IA incarnée. Le système repose sur une représentation par hypergraphe : chaque objet détecté dans une scène devient un nœud, tandis que des hyper-arêtes agrègent ces objets selon leurs attributs fonctionnels et leur sémantique pour former des régions cohérentes. GaLa intègre également un encodeur baptisé TriView HyperGraph Encoder, qui impose une cohérence sémantique entre trois niveaux de représentation (vue nœud, vue zone, vue association nœud-zone) via apprentissage contrastif. Les expériences menées sur les benchmarks ActPlan1K et ALFRED montrent des gains significatifs sur le taux de succès d'exécution, le score LCS (Longest Common Subsequence) et la correction des plans générés, sans que les auteurs ne publient de chiffres absolus précis dans le résumé disponible. Ce travail cible un problème bien documenté dans la robotique d'interaction : les VLMs (Vision-Language Models) actuels raisonnent correctement sur du langage et de l'image de façon isolée, mais peinent à saisir les relations spatiales implicites et la hiérarchie fonctionnelle d'une scène réelle. Pour un robot devant exécuter une séquence de tâches domestiques (préparer un repas, ranger des objets), comprendre que le plan de travail et le réfrigérateur appartiennent à la même région fonctionnelle change radicalement la qualité du plan généré. GaLa propose une couche de structuration explicite en amont du raisonnement VLM, ce qui réduit la dépendance aux capacités d'inférence implicite des modèles de fondation et ouvre la voie à une meilleure généralisation sur des scènes non vues. Le benchmark ALFRED, développé par Allen AI, est devenu la référence standard pour évaluer la planification procédurale en environnement simulé domestique, et ActPlan1K cible des scénarios procéduraux plus complexes. La tendance actuelle dans ce sous-domaine consiste à enrichir les VLMs généralistes (GPT-4o, LLaVA, InternVL) avec des modules de représentation structurée, une approche que GaLa pousse plus loin que les travaux précédents via l'hypergraphe. Les concurrents directs incluent des travaux comme SQA3D, EmbodiedScan ou les pipelines VLA (Vision-Language-Action) de Physical Intelligence (pi0) et de Google DeepMind, qui cherchent eux aussi à réduire le gap simulation-réel. GaLa reste pour l'instant un résultat de recherche académique sans déploiement physique annoncé.

RechercheActu
1 source
RBR50 Gala fait son retour au Robotics Summit & Expo 2026
419Robotics Business Review 

RBR50 Gala fait son retour au Robotics Summit & Expo 2026

Le Robotics Summit & Expo 2026 accueillera le 27 mai prochain, de 18h à 20h, la cérémonie des RBR50 Robotics Innovation Awards au Thomas M. Menino Boston Convention and Exhibition Center. L'événement, organisé par The Robot Report et WTWH Media, clôture le premier jour du salon en réunissant les principaux acteurs de l'industrie robotique autour d'un dîner de remise de prix. Parmi les lauréats déjà annoncés figurent Amazon Vulcan, distingué Robot de l'Année pour son système de préhension tactile appliqué au picking et au rangement en entrepôt, et Physical Intelligence, désignée Startup de l'Année pour ses modèles PI qui modifient l'approche de l'apprentissage robotique. Le prix Application de l'Année revient à Harvard University pour son exosquelette souple porté au bras, destiné aux patients victimes d'AVC ou atteints de SLA. Tatum Robotics remporte la catégorie Robots for Good avec Tatum1, une main robotique conçue pour la communication tactile en langue des signes. En marge des prix, Aaron Parness, directeur des sciences appliquées chez Amazon Robotics, s'entretiendra avec Steve Crowe, rédacteur en chef de The Robot Report, dans une conversation centrée sur le robot Vulcan. La sélection de ces lauréats illustre les axes de développement qui structurent aujourd'hui le marché : la manipulation tactile en environnement industriel non structuré avec Vulcan, l'apprentissage par démonstration à grande échelle avec Physical Intelligence, et des applications médicales portables qui sortent le robot du sol d'usine. Pour un intégrateur ou un décideur industriel, ces distinctions signalent moins des ruptures technologiques que des vecteurs de maturité commerciale. Vulcan notamment incarne la convergence entre robotique de service, perception haptique et déploiement à l'échelle opérationnelle chez un acteur e-commerce majeur, ce qui constitue une référence de validation terrain difficile à ignorer. La présence de Physical Intelligence dans les lauréats confirme aussi l'intérêt croissant du secteur pour les approches génératives de contrôle moteur, un positionnement que se disputent également Figure AI, 1X Technologies et Agility Robotics. Le Robotics Summit & Expo est devenu en quelques éditions l'un des rendez-vous techniques de référence pour les développeurs de robotique commerciale, avec plus de 50 sessions programmées cette année sur l'IA, le design, les technologies habilitantes, la santé et la logistique. Plus de 70 intervenants confirmés représentent AWS, Brain Corp, Tesla, Toyota Research Institute, PickNik Robotics ou encore le Robotics and AI Institute. Le salon est co-localisé avec DeviceTalks Boston, dédié aux dispositifs médicaux, ce qui renforce la dimension santé de l'édition 2026. La liste complète des lauréats RBR50 n'est pas encore publiée; The Robot Report annonce une mise en ligne prochaine, accompagnée du détail de l'exposition RBR50 Showcase sur le floor du salon. Les inscriptions sont ouvertes.

AutreActu
1 source
Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)
420arXiv cs.RO 

Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)

Une équipe de chercheurs a publié sur arXiv (référence 2604.15938) une proposition architecturale baptisée VADF (Vision-Adaptive Diffusion Policy Framework), visant à corriger deux défauts structurels des politiques de diffusion appliquées à la manipulation robotique. Le premier défaut est le déséquilibre de classe dû à l'échantillonnage uniforme lors de l'entraînement : le modèle traite indistinctement les exemples faciles et difficiles, ce qui ralentit la convergence. Le second est le taux d'échec à l'inférence par dépassement de délai, un problème opérationnel concret dès qu'on sort du laboratoire. VADF intègre deux composants : l'ALN (Adaptive Loss Network), un MLP léger qui prédit en temps réel la difficulté de chaque pas d'entraînement et applique un suréchantillonnage des régions à forte perte via du hard negative mining ; et l'HVTS (Hierarchical Vision Task Segmenter), qui décompose une instruction de haut niveau en sous-tâches visuellement guidées, en assignant des schedules de bruit courts aux actions simples et des schedules longs aux actions complexes, réduisant ainsi la charge computationnelle à l'inférence. L'architecture est conçue model-agnostic, c'est-à-dire intégrable à n'importe quelle implémentation existante de politique de diffusion. L'intérêt pour un intégrateur ou un responsable R&D est avant tout pratique : les politiques de diffusion souffrent de coûts d'entraînement élevés et d'une fiabilité insuffisante en déploiement réel, ce qui freine leur adoption industrielle. Si les gains annoncés par VADF se confirment sur des benchmarks indépendants, la réduction des étapes de convergence représenterait un levier significatif sur les coûts GPU, et la diminution des timeouts à l'inférence améliorerait directement la cadence opérationnelle. Il faut toutefois noter que ce travail est un preprint non évalué par des pairs, sans chiffres de performance comparatifs publiés dans l'article lui-même. Les politiques de diffusion ont émergé comme méthode de choix pour l'imitation comportementale en robotique depuis les travaux de Chi et al. en 2023 (Diffusion Policy, Columbia), avant d'être intégrées dans des architectures plus larges comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. La principale tension du domaine reste le sim-to-real gap et la robustesse à l'inférence en conditions réelles, terrain sur lequel VADF prétend apporter une contribution. Les prochaines étapes logiques seraient une validation sur des benchmarks standard (RLBench, LIBERO) et une comparaison directe avec ACT ou Diffusion Policy de référence.

RecherchePaper
1 source