Aller au contenu principal
Amazon développe un robot d'entrepôt que les employés peuvent piloter à la voix
IA physiqueThe Verge1h

Amazon développe un robot d'entrepôt que les employés peuvent piloter à la voix

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Amazon a présenté une nouvelle version de Proteus, son robot de manutention autonome déployé dans ses entrepôts, capable désormais de recevoir des instructions en langage naturel. Là où les opérateurs devaient auparavant passer par un logiciel spécialisé pour programmer les déplacements de l'engin, ils peuvent désormais lui communiquer des tâches verbalement, comme à un collègue. Le robot, au format bas et trapézoïdal conçu pour déplacer de lourds chariots à travers les allées logistiques, conserve le même châssis que le modèle original annoncé en 2022, la nouveauté est exclusivement logicielle, portée par une surcouche IA.

L'enjeu est significatif pour les opérations à grande échelle : éliminer la friction de programmation réduit le temps de formation des opérateurs et permet une réaffectation dynamique des robots sans intervention IT. C'est aussi un signal clair sur la direction qu'Amazon prend dans la course à l'automatisation de ses 1 000+ centres de distribution aux États-Unis, où la pression syndicale et les coûts de main-d'oeuvre accélèrent les déploiements robotiques. Cela dit, l'annonce reste pour l'instant au stade de démonstration capacitaire : Amazon ne communique pas de chiffres de déploiement, de taux d'erreur ni de benchmarks de cycle time dans des conditions réelles.

Proteus fait partie d'un portefeuille robotique Amazon qui inclut Sequoia (tri de petits colis), Sparrow (picking d'articles) et Cardinal (manutention de caisses). Sur le volet langage naturel appliqué aux robots industriels, Amazon rejoint une tendance portée par Boston Dynamics (Spot) et Intrinsic (filiale Alphabet), qui intègrent des interfaces LLM pour réduire la barrière à la programmation en atelier. Les prochaines étapes annoncées par Amazon restent vagues, sans timeline précise ni volume de déploiement confirmé.

Impact France/UE

Amazon opère des entrepôts en France et en Europe ; l'adoption à grande échelle d'interfaces LLM sur robots industriels pourrait accélérer la pression à l'automatisation dans la logistique EU et influencer les standards d'intégration des opérateurs locaux.

Dans nos dossiers

À lire aussi

Genesis AI développe un cerveau robotique pour doter les robots polyvalents d'une dextérité comparable à celle de l'humain
1Interesting Engineering 

Genesis AI développe un cerveau robotique pour doter les robots polyvalents d'une dextérité comparable à celle de l'humain

Genesis AI a dévoilé GENE-26.5, un modèle d'intelligence artificielle qualifié de "cerveau robotique" par l'entreprise, conçu pour doter les robots polyvalents d'une dextérité comparable à celle de l'être humain dans l'exécution de tâches physiques complexes. Le système repose sur une architecture VLA (vision-language-action) : il ingère des flux vidéo issus de caméras embarquées, interprète des instructions en langage naturel et génère directement des commandes motrices de bas niveau, sans pipeline modulaire intermédiaire. Selon Genesis AI, GENE-26.5 permet d'exécuter des séquences de manipulation multi-étapes (saisie, tri, assemblage, adaptation aux variations d'environnement) et fonctionnerait sur plusieurs types de plateformes matérielles sans être lié à une configuration d'actionneurs spécifique. L'entreprise n'a toutefois publié aucun benchmark indépendant ni aucune étude évaluée par les pairs : les performances annoncées reposent exclusivement sur des évaluations internes. La composition et le volume du dataset d'entraînement, probablement issu de sessions de télé-opération humaine et de simulations à grande échelle, n'ont pas été divulgués. L'enjeu de cette annonce dépasse le seul modèle. Le véritable goulot d'étranglement dans le développement des robots polyvalents n'est plus mécanique mais logiciel, et plus précisément la capacité des politiques de contrôle à transférer de la simulation au monde réel (le "sim-to-real gap"). Une architecture VLA end-to-end présente un avantage théorique : la perception et l'action étant couplées dans un même réseau de neurones, le robot peut ajuster sa trajectoire de préhension en temps réel sans attendre un module de planification séparé. Ce couplage comporte toutefois un risque structurel, les erreurs de perception se propageant directement aux commandes motrices sans point de contrôle intermédiaire. Si la généralisation inter-plateformes de GENE-26.5 était validée indépendamment, elle réduirait significativement les barrières à l'entrée pour les intégrateurs et les startups robotiques qui n'ont pas les ressources pour entraîner leurs propres modèles fondamentaux, déplaçant la différenciation concurrentielle vers la qualité matérielle et le fine-tuning applicatif. L'annonce intervient dans un contexte de compétition accélérée sur le marché des robots à usage général. Des acteurs américains comme Figure (Figure 03), Agility Robotics ou Apptronik, ainsi que les équipes Optimus de Tesla et les laboratoires de Physical Intelligence (Pi-0) ou de NVIDIA (GR00T N2), visent des volumes de production de l'ordre de 100 000 unités d'ici 2027. La dextérité manuelle reste l'un des problèmes les plus ouverts du domaine : la main humaine mobilise environ 27 os et plus de 30 muscles pour des gestes que les robots ne reproduisent encore qu'approximativement. Genesis AI n'a annoncé ni partenaire matériel, ni calendrier de déploiement commercial, ni conditions de licence pour GENE-26.5. L'affirmation d'une dextérité "au niveau humain" constitue une revendication forte que le secteur attendra de voir confirmer par des données de terrain réelles, hors conditions de démonstration contrôlées.

UESi la généralisation inter-plateformes de GENE-26.5 était validée indépendamment, elle pourrait réduire les barrières à l'entrée pour les startups et intégrateurs robotiques européens qui n'ont pas les ressources pour entraîner leurs propres modèles fondamentaux.

IA physiqueOpinion
1 source
La recherche NVIDIA montre que des robots entraînés en simulation peuvent accomplir des tâches réelles
2Interesting Engineering 

La recherche NVIDIA montre que des robots entraînés en simulation peuvent accomplir des tâches réelles

NVIDIA a présenté huit travaux de recherche en robotique à l'International Conference on Robotics and Automation (ICRA) 2026, tous centrés sur la réduction du "sim-to-real gap" -- l'écart de performance entre un robot entraîné en simulation et ce même robot confronté au monde physique. Parmi les systèmes mis en avant, COMPASS entraîne des robots exclusivement dans Isaac Lab (le simulateur NVIDIA) avant de transférer les politiques apprises vers des corps physiques différents. Sur 20 essais réels impliquant des robots mobiles autonomes et des humanoïdes, le framework atteint un taux de succès de 80 % en navigation, soit 4,5 fois supérieur aux baselines par imitation learning. Le système Grasp-MPC, dédié à la préhension en environnement encombré, a été entraîné sur 2 millions de trajectoires simulées couvrant 8 000 objets distincts, et atteint 75 % de succès sur des objets inconnus contre 41 % pour les méthodes de référence. Le framework SPARR, appliqué à l'assemblage industriel, découpe la tâche en deux couches -- une politique apprise en sim, corrigée en temps réel sur le hardware réel -- et affiche 38 % de gain sur le taux de succès d'assemblage et 30 % de réduction du temps de cycle par rapport aux baselines zero-shot sim-to-real. Enfin, PEEK améliore l'attention visuelle des robots (filtrage du bruit visuel non pertinent), avec une précision multipliée jusqu'à 41 fois pour des politiques purement simulées. Une collaboration avec Carnegie Mellon, l'Université de l'Utah et l'Université de Sydney a produit SEAL, un framework qui contraint le robot à n'exécuter que les séquences d'actions cohérentes avec son raisonnement planifié. Ces résultats sont significatifs pour les intégrateurs et les décideurs industriels, car ils montrent que le sim-to-real gap -- longtemps considéré comme le verrou structurel de la robotique apprise -- commence à se refermer de façon mesurable, au moins en conditions de laboratoire. Le gain de 30 % sur le temps de cycle (SPARR) est un chiffre qui parle directement aux opérateurs de lignes d'assemblage. Il convient cependant de nuancer : les taux de succès rapportés (75-80 %) sont mesurés dans des protocoles contrôlés par les chercheurs eux-mêmes, sans déploiement industriel validé en production. Les vidéos sélectionnées pour illustrer ces travaux suivent les conventions habituelles des communications académiques, qui ne montrent pas les échecs. La progression reste réelle, mais le passage de 80 % à 99 % de fiabilité -- seuil requis pour la plupart des applications industrielles critiques -- reste un problème ouvert. NVIDIA positionne cette recherche comme la couche logicielle et de simulation de son écosystème robotique plus large, qui inclut Isaac Lab, Isaac GR00T X Embodiment Sim et Omniverse NuRec. La compagnie ne fabrique pas de robots mais ambitionne de devenir l'infrastructure sur laquelle l'industrie entraîne ses systèmes, face à des concurrents comme Google DeepMind (avec ses travaux sur RT-2 et Gemini Robotics), Meta (V-JEPA) et Physical Intelligence (pi0). Sur le segment de la simulation pour la robotique, des acteurs comme Mujoco (DeepMind) et Genesis (MIT/CMU) occupent également le terrain. Les prochaines étapes annoncées par NVIDIA passent par l'extension des datasets ouverts et la montée en échelle des plateformes de simulation, sans timeline de commercialisation précisée pour les frameworks présentés à l'ICRA.

UELes intégrateurs industriels européens en robotique d'assemblage pourraient à terme bénéficier des frameworks sim-to-real NVIDIA (Isaac Lab, SPARR), mais aucun déploiement ni partenariat européen n'est annoncé à ce stade.

💬 Le 30% de gain sur le temps de cycle, c'est le seul chiffre qui va faire bouger un décideur industriel. NVIDIA ne fabrique pas de robots mais joue exactement le même coup qu'avec les GPU : devenir l'infrastructure incontournable avant que le marché soit mature, face à DeepMind, Meta et les autres. Reste que passer de 80% à 99% de fiabilité, le vrai seuil pour les lignes critiques, c'est encore une autre histoire.

IA physiquePaper
1 source
Piloter un robot humanoïde par instructions en langage libre : un modèle d'action à grand vocabulaire de mouvement unifié
3arXiv cs.RO 

Piloter un robot humanoïde par instructions en langage libre : un modèle d'action à grand vocabulaire de mouvement unifié

Des chercheurs ont publié sur arXiv (identifiant 2511.22963, troisième version) Humanoid-LLA, un modèle d'action fondé sur un grand modèle de langage capable de convertir des instructions en langage naturel libre en séquences de mouvement whole-body exécutables directement sur des robots humanoïdes. Le système s'attaque à deux verrous techniques bien connus dans le domaine : la rareté des données appariées langage-mouvement humanoïde, et l'instabilité physique des mouvements synthétiques. Pour y remédier, l'architecture apprend un vocabulaire de mouvement unifié humain-humanoïde qui permet d'ancrer la sémantique de haut niveau dans un espace de contrôle physiquement cohérent. L'entraînement suit un protocole en deux étapes : une phase supervisée par Chain-of-Thought sur les séquences de mouvement, suivie d'un affinage par reinforcement learning conditionné par un retour de simulation physique. Les évaluations combinent tests en simulation et expériences réelles en cross-embodiment, soit sur plusieurs modèles de robots distincts. Ce travail comble un angle mort persistant dans la recherche sur les humanoïdes : la commande en langage libre pour le contrôle du corps entier, et pas seulement du bras manipulateur. Les approches existantes restent soit cantonnées à des instructions prédéfinies, soit contraintes à sacrifier la diversité des mouvements pour conserver la stabilité physique. Humanoid-LLA tente de lever ce compromis en intégrant explicitement la physique dans la boucle d'apprentissage via le RL. Pour les intégrateurs et les COO industriels, l'enjeu est concret : un tel modèle pourrait réduire la dépendance aux interfaces de programmation spécialisées et abaisser le coût d'interaction avec des humanoïdes en ligne de production. La capacité de généralisation à des commandes inédites reste la métrique-clé revendiquée, mais l'absence de benchmarks comparatifs standardisés et la sélection probable des démonstrations vidéo invitent à nuancer les conclusions. Humanoid-LLA s'inscrit dans la montée en puissance des modèles VLA (Vision-Language-Action), un segment où Physical Intelligence avec pi0, Google DeepMind avec RT-2 et GR00T N2 co-développé avec NVIDIA, et Figure avec son pipeline Helix ont toutes misé sur le couplage langage-action pour dépasser les politiques sensorimotrices figées. La spécificité de cette contribution est le focus explicite sur le mouvement du corps complet plutôt que sur la manipulation d'objets, un espace encore peu exploré à grande échelle. L'article demeure un preprint non évalué par les pairs, sans déploiement industriel ni partenariat de mise en production annoncé. Les prochaines étapes probables incluent une soumission en conférence de type ICRA ou CoRL, et une validation sur des humanoïdes commerciaux comme l'Unitree H1 ou le Boston Dynamics Atlas, régulièrement utilisés comme bancs de test dans ce segment.

IA physiqueOpinion
1 source
Le fondateur d'iRobot veut placer un compagnon robotique dans votre foyer
4IEEE Spectrum Robotics 

Le fondateur d'iRobot veut placer un compagnon robotique dans votre foyer

Colin Angle, cofondateur d'iRobot - la société derrière le Roomba et la plus grande réussite commerciale de l'histoire de la robotique domestique - a présenté le 4 mai 2026 le premier robot de sa nouvelle entreprise, Familiar Machines & Magic (FM&M). Baptisé "Familiar", ce quadrupède à 23 degrés de liberté est recouvert d'une peau tactile personnalisée, équipé d'un réseau de microphones, d'un système de vision et d'une pile d'IA embarquée reposant sur un modèle multimodal compact optimisé pour le raisonnement social, combinant en temps réel vision, audio, langage et mémoire. La forme est délibérément celle d'un ours très abstrait - ni chien, ni chat - suivant la stratégie de Paro et Pleo : l'absence de référent animal direct réduit les attentes préconçues de l'utilisateur. Destiné aux adultes, Familiar est conçu pour vivre dans un foyer, chercher le contact de ses habitants et les aider à instaurer des routines positives - limiter le temps d'écran, inciter à sortir marcher. Aucun prix ni date de commercialisation n'ont été communiqués : il s'agit à ce stade d'un premier prototype présenté publiquement. Morgan Pope, ancien chercheur chez Disney Research, figure parmi les cofondateurs clés. Ce lancement teste une hypothèse industrielle précise : deux avancées récentes rendraient aujourd'hui crédible un robot social grand public viable. Pope identifie d'abord les robots bipèdes de Disney pilotés par apprentissage par renforcement (RL), qui ont démontré qu'une locomotion adaptative sur terrain varié ne nécessite plus d'actionneurs coûteux à faible jeu mécanique. Ensuite, les modèles génératifs multimodaux, dont Pope reconnaît ouvertement qu'ils excellent à créer "l'illusion plausible d'intelligence" - suffisante pour rendre un personnage cohérent sans compréhension profonde du monde physique. Pour les intégrateurs et décideurs, c'est un signal que le ratio performance/coût du hardware embarqué et du software a franchi un seuil. Le positionnement "coaching comportemental" tente de distinguer Familiar des gadgets de compagnie en lui assignant une utilité mesurable, là où ses prédécesseurs peinaient à justifier leur prix. La catégorie des robots sociaux grand public accumule les échecs commerciaux : Jibo, Cozmo, et le premier AIBO de Sony ont illustré la difficulté à convaincre au-delà des early adopters. Angle dispose d'une crédibilité rare dans ce contexte : iRobot a vendu des dizaines de millions de Roombas avant d'être racheté par Amazon en 2022, puis revendu. FM&M se positionne face à l'AIBO actuel de Sony (quadrupède social, environ 2 900 euros), mais avec une proposition d'IA comportementale plus ambitieuse et un traitement local plutôt que cloud. Aucun acteur français ou européen n'opère directement sur ce segment résidentiel - Enchanted Tools avec Miroki cible le secteur tertiaire. Les prochaines étapes de FM&M restent non communiquées : pas de timeline de lancement, pas de partenaire distributeur annoncé.

IA physiqueOpinion
1 source