Aller au contenu principal
Le prochain goulot d'étranglement de l'IA n'est pas les modèles, c'est la capacité des agents à raisonner ensemble
InfrastructureVentureBeat AI5j

Le prochain goulot d'étranglement de l'IA n'est pas les modèles, c'est la capacité des agents à raisonner ensemble

1 source couvre ce sujet·Source originale ↗·
Le prochain goulot d'étranglement de l'IA n'est pas les modèles, c'est la capacité des agents à raisonner ensemble
▶ Voir sur YouTube

Les agents d'intelligence artificielle peuvent désormais être interconnectés dans des workflows complexes, mais Vijoy Pandey, SVP et directeur général d'Outshift by Cisco, pointe une limite fondamentale : la connexion n'est pas la cognition. Chaque agent repart de zéro à chaque interaction, sans contexte partagé ni alignement sémantique avec ses pairs. Pour résoudre ce problème, l'équipe de Pandey développe trois nouveaux protocoles de communication inter-agents : le Semantic State Transfer Protocol (SSTP), qui opère au niveau du langage pour permettre aux systèmes d'inférer la bonne tâche ; le Latent Space Transfer Protocol (LSTP), capable de transférer l'espace latent complet d'un agent à un autre, en transmettant directement le cache KV pour éviter le coût de la tokenisation ; et le Compressed State Transfer Protocol (CSTP), orienté vers les déploiements en périphérie de réseau où il faut transmettre de grandes quantités d'état de manière précise et compressée. En parallèle, Cisco a collaboré avec le MIT sur le Ripple Effect Protocol, une initiative complémentaire dans cette direction.

L'enjeu derrière ces travaux est considérable : atteindre ce que Pandey appelle l'"internet de la cognition", un niveau où des agents peuvent résoudre des problèmes inédits, sans intervention humaine, en partageant véritablement leur intention et leur contexte. Ce saut qualitatif représente selon lui le "grand déblocage" pour les systèmes d'IA de prochaine génération. Sur le plan opérationnel, Cisco a déjà montré des résultats concrets : en déployant plus de vingt agents, dont certains développés en interne et d'autres issus de fournisseurs tiers, l'équipe SRE de Cisco a automatisé plus d'une douzaine de workflows de bout en bout, incluant les pipelines CI/CD, les déploiements Kubernetes et les instanciations EC2. Ces agents accèdent à plus de cent outils via des frameworks comme le Model Context Protocol (MCP), tout en s'intégrant aux plateformes de sécurité de Cisco.

Pandey situe cette évolution dans une trajectoire historique plus large : l'intelligence humaine a d'abord émergé individuellement, avant que la communication progressive entre individus ne déclenche une révolution cognitive collective, permettant l'intention partagée, la coordination et l'innovation distribuée. Son équipe reproduit délibérément cette trajectoire dans le silicium, en codifiant l'intention, le contexte et l'innovation collective directement dans l'infrastructure sous forme de règles, d'API et de capacités. L'architecture cible se décompose en trois couches : les protocoles (SSTP, LSTP, CSTP), un tissu de distribution pour synchroniser les états cognitifs entre endpoints, et des "moteurs de cognition" fournissant garde-fous et accélération. Cisco n'est pas seul sur ce terrain : la course à l'infrastructure agentique de nouvelle génération s'intensifie, avec des acteurs comme Anthropic, OpenAI et des startups spécialisées qui poussent chacun leurs propres standards, rendant la bataille des protocoles aussi stratégique que celle des modèles eux-mêmes.

À lire aussi

Amazon SageMaker AI accélère l'inférence d'IA générative avec les instances G7e
1AWS ML Blog 

Amazon SageMaker AI accélère l'inférence d'IA générative avec les instances G7e

Amazon Web Services a annoncé la disponibilité des instances G7e sur Amazon SageMaker AI, une nouvelle génération de serveurs d'inférence propulsés par les GPU NVIDIA RTX PRO 6000 Blackwell Server Edition. Ces instances sont disponibles en configurations de 1, 2, 4 et 8 GPU, chaque carte offrant 96 Go de mémoire GDDR7. Concrètement, une instance G7e.2xlarge à GPU unique peut désormais héberger des modèles open source de 35 milliards de paramètres comme Qwen3.5-35B ou GPT-OSS-120B, tandis qu'une configuration à 8 GPU (G7e.48xlarge) atteint 768 Go de mémoire GPU totale et peut faire tourner des modèles de 300 milliards de paramètres sur un nœud unique. La bande passante réseau grimpe à 1 600 Gbps via EFA, soit quatre fois plus que la génération G6e et seize fois plus que les G5. Ces chiffres ont une implication directe pour les équipes d'ingénierie : des modèles qui nécessitaient auparavant plusieurs machines interconnectées peuvent désormais s'exécuter sur un seul nœud, supprimant la latence inter-nœuds et la complexité opérationnelle associée. Les performances d'inférence sont jusqu'à 2,3 fois supérieures à celles des G6e. Pour les applications temps réel comme les chatbots, les pipelines RAG ou les workflows agentiques, cette densité mémoire combinée à une bande passante CPU-GPU quatre fois plus élevée se traduit par des temps de réponse plus courts sous charge élevée. Les modèles multimodaux et de génération d'images, souvent limités par des erreurs de mémoire insuffisante sur les générations précédentes, bénéficient également directement de ce doublement de la capacité par GPU. Cette annonce s'inscrit dans une course aux accélérateurs cloud que se livrent AWS, Google et Microsoft, chacun cherchant à proposer les GPU les plus récents de NVIDIA au plus vite après leur lancement. Les puces Blackwell de NVIDIA, dont la RTX PRO 6000 Server Edition fait partie, représentent la cinquième génération de Tensor Cores avec support natif de la précision FP4, permettant de réduire encore la consommation mémoire pour les grands modèles. Le support de NVIDIA GPUDirect RDMA via EFAv4 ouvre également la voie à des scénarios d'inférence multi-nœuds à faible latence, jusqu'ici peu pratiques sur les instances G-series. À mesure que les modèles de langage et les systèmes agentiques continuent de grossir en taille et en complexité, la capacité à les déployer efficacement sur infrastructure managée comme SageMaker devient un avantage concurrentiel décisif pour les entreprises qui cherchent à maîtriser leurs coûts d'exploitation tout en montant en puissance.

UELes équipes techniques européennes utilisant Amazon SageMaker dans les régions AWS EU peuvent désormais déployer des modèles jusqu'à 300 milliards de paramètres sur un seul nœud, réduisant la complexité opérationnelle et les coûts d'inférence pour les applications temps réel.

InfrastructureActu
1 source
NVIDIA et ses partenaires présentent l'avenir de la fabrication pilotée par l'IA à Hannover Messe 2026
2NVIDIA AI Blog 

NVIDIA et ses partenaires présentent l'avenir de la fabrication pilotée par l'IA à Hannover Messe 2026

NVIDIA et ses partenaires industriels investissent Hannover Messe 2026, le salon phare de l'industrie manufacturière qui se tient du 20 au 24 avril à Hanovre, en Allemagne, pour y présenter ce qu'ils considèrent comme la prochaine révolution de la production : l'usine pilotée par l'intelligence artificielle. Au programme, des démonstrations concrètes couvrant l'informatique accélérée, la simulation physique en temps réel, les agents autonomes et les robots humanoïdes opérant en environnement industriel. Parmi les temps forts, l'annonce de l'Industrial AI Cloud, l'un des plus grands centres d'IA d'Europe, construit en Allemagne par Deutsche Telekom sur infrastructure NVIDIA. Des géants comme SAP, Siemens, ABB, Dassault Systèmes, Cadence ou encore Synopsys y participent, aux côtés d'acteurs spécialisés comme Agile Robots, Wandelbots et PhysicsX. EDAG, prestataire indépendant d'ingénierie, a par ailleurs annoncé le déploiement de sa plateforme de métavers industriel "metys" sur ce cloud souverain, ciblant l'automobile et l'ingénierie lourde. L'enjeu est considérable : l'industrie manufacturière mondiale fait face à une pression simultanée sur les cycles de conception, les coûts opérationnels et la disponibilité de main-d'œuvre qualifiée. L'IA n'est plus une option expérimentale mais un levier de compétitivité immédiat. Les jumeaux numériques à l'échelle d'une usine entière, construits sur les bibliothèques Omniverse de NVIDIA et le standard ouvert OpenUSD, permettent désormais de simuler, tester et optimiser des lignes de production en continu, sans interruption physique. ABB, par exemple, intègre ces outils dans sa suite Genix pour analyser la performance des équipements et accélérer la recherche de causes de pannes via des agents IA. Pour les ingénieurs, la simulation physique en temps réel change radicalement le processus de conception : là où des heures de calcul étaient nécessaires, des résultats apparaissent en secondes. Cette offensive de NVIDIA dans l'industrie s'inscrit dans une stratégie plus large visant à faire de l'informatique accélérée le socle de la transformation industrielle européenne. Le concept de "souveraineté numérique" est central : face aux craintes européennes de dépendance aux clouds américains, l'Industrial AI Cloud positionné en Allemagne répond à une demande politique autant qu'économique. CUDA-X, Omniverse, les modèles ouverts Nemotron et les puces NVIDIA équipent désormais les logiciels des éditeurs les plus influents du secteur, de Siemens à Dassault Systèmes, créant un écosystème interdépendant difficile à contourner. Dell, IBM, Lenovo et PNY complètent l'offre avec des systèmes accélérés déployables de la périphérie jusqu'aux datacenters. La prochaine étape, déjà visible à Hanovre, est l'intégration de robots humanoïdes dans les chaînes de production, un marché où NVIDIA entend jouer un rôle d'infrastructure aussi structurant que dans l'IA générative.

UEL'Industrial AI Cloud inauguré en Allemagne par Deutsche Telekom sur infrastructure NVIDIA, avec la participation de Dassault Systèmes et Siemens, offre aux industriels européens une infrastructure cloud souveraine pour déployer l'IA en production.

InfrastructureActu
1 source
Hesai dévoile sa stratégie et de nouveaux produits pour redéfinir l'infrastructure d'IA physique, de l'automobile à la robotique
3Pandaily 

Hesai dévoile sa stratégie et de nouveaux produits pour redéfinir l'infrastructure d'IA physique, de l'automobile à la robotique

Le 17 avril 2026, Hesai Technology (NASDAQ: HSAI, HKEX: 2525) a tenu son Technology Open Day annuel pour dévoiler le Picasso SPAD-SoC, présenté comme le premier chip LiDAR 6D full-color au monde. Ce circuit intègre à la fois la détection couleur RGB et la mesure de distance par temps de vol (TOF) au niveau pixel, générant directement des nuages de points colorés sans post-traitement. Le LiDAR traditionnel se limite aux trois dimensions spatiales XYZ ; le Picasso ajoute la teinte (RGB), portant à six les dimensions de perception simultanée. Son efficacité de détection photonique (PDE) dépasse 40 %, ce qui permet de détecter des objets plus lointains et de mieux performer en faible luminosité. Ce chip alimente la série ETX, plateforme LiDAR full-color dépassant 1 000 lignes, disponible en configurations 1 080, 2 160 et 4 320 lignes. En version haute résolution, le ETX affiche une portée jusqu'à 600 mètres, 400 mètres à 10 % de réflectivité, et est capable d'identifier une barrière de chantier à 300 mètres, un petit animal à 280 mètres, ou un bloc de bois à 150 mètres. La mise en production de masse est prévue pour le second semestre 2026, avec un déploiement sur des modèles phares attendu entre 2027 et 2028. L'annonce repositionne Hesai sur un marché en pleine redéfinition : le passage de la voiture autonome de niveau 2+ vers le L3 exige que le LiDAR passe du statut de composant optionnel à celui de système de sécurité critique. Les architectures véhicules basculent vers des configurations multi-LiDAR (typiquement 3 à 6 capteurs pour une couverture 360°), ce qui démultiplie les volumes par véhicule. Le fait que Hesai soit aujourd'hui le seul fabricant de LiDAR à développer en interne l'intégralité de ses sept composants clés, lasers, détecteurs, drivers, TIA, ADC, DSP et contrôleurs, lui confère une autonomie verticale rare dans un secteur très dépendant des fournisseurs asiatiques de semi-conducteurs. Avec 21 puces certifiées AEC-Q, 230 millions d'unités livrées cumulées et des commandes constructeurs dépassant les 6 millions d'unités pour les seuls produits basés sur le Fermi C500 (lancé en novembre 2025 sur architecture RISC-V), Hesai présente des métriques de commercialisation réels, pas seulement des démonstrations de laboratoire. Fondée à Shanghai, Hesai a construit son écosystème chip en cinq générations de R&D. La dénomination "Picasso", référence au peintre cubiste et à sa maîtrise de la représentation multidimensionnelle, marque symboliquement le pivot stratégique de l'entreprise vers ce qu'elle appelle l'"intelligence spatiale", matérialisé par le nouveau produit Kosmo (hardware IA spatial) et une direction inédite autour de modules d'alimentation pour la robotique. Sur ce dernier segment, Hesai entre en compétition directe avec des acteurs comme Ouster (désormais Ouster-Velodyne fusionné avec Sense Photonics), Luminar, ou encore RoboSense, qui ciblent tous la robotique humanoïde et les AMR industriels. Hesai prévoit que ses livraisons cumulées dépasseront 300 millions d'unités d'ici fin 2026. Les prochaines étapes attendues concernent les homologations L3 par les constructeurs partenaires et les premières intégrations Kosmo dans des environnements de test physique AI, mais aucun client ni calendrier précis n'a été communiqué sur ces deux points.

InfrastructureActu
1 source
Moonshot AI et des chercheurs de Tsinghua proposent PrfaaS : une architecture KVCache inter-datacenters qui repense le déploiement des LLM à grande échelle
4MarkTechPost 

Moonshot AI et des chercheurs de Tsinghua proposent PrfaaS : une architecture KVCache inter-datacenters qui repense le déploiement des LLM à grande échelle

Des chercheurs de Moonshot AI et de l'Université Tsinghua ont publié une architecture nouvelle baptisée PrfaaS (Prefill-as-a-Service), qui repense fondamentalement la manière dont les grands modèles de langage traitent les inférences à grande échelle. Le principe : délocaliser la phase de prefill, c'est-à-dire le traitement initial des tokens d'entrée, vers des clusters dédiés et bourrés de puissance de calcul, puis transférer le cache clé-valeur (KVCache) résultant via un réseau Ethernet classique vers des clusters locaux chargés du décodage. Les gains mesurés sont substantiels : dans une étude de cas portant sur un modèle interne hybride de 1 000 milliards de paramètres, PrfaaS affiche un débit 54 % supérieur à une architecture homogène classique, et 32 % supérieur à une configuration hétérogène naïve. À coût matériel égal, le gain net est d'environ 15 %, le reste de l'avantage provenant du choix de GPU plus puissants (H200) pour le prefill couplés à des H20 pour le décodage. Ce que change cette architecture, c'est qu'elle lève une contrainte qui paralysait l'industrie depuis des années : la nécessité de co-localiser prefill et décodage dans le même datacenter, voire le même rack, en raison des débits colossaux imposés par les réseaux RDMA. Les modèles denses classiques avec attention groupée (GQA) génèrent des KVCache à environ 60 Gbps pour une requête de 32 000 tokens, un volume qui rend toute séparation inter-datacenter impraticable sans infrastructure réseau spécialisée extrêmement coûteuse. PrfaaS ouvre la voie à une mutualisation géographique des ressources de calcul, ce qui représente un levier majeur d'optimisation des coûts pour les opérateurs de LLM à l'échelle industrielle. Ce qui rend cette approche viable aujourd'hui, c'est une évolution profonde au niveau des modèles eux-mêmes. Une nouvelle génération d'architectures hybrides, dont Kimi Linear, MiMo-V2-Flash, Qwen3.5-397B et Ring-2.5-1T, mêle des couches d'attention complète à des couches à complexité linéaire ou à fenêtre glissante. Seules les couches d'attention complète produisent un KVCache croissant avec la longueur du contexte ; les autres maintiennent des états de taille fixe. Résultat : MiMo-V2-Flash ne génère que 4,66 Gbps de débit KV à 32 000 tokens contre 59,93 Gbps pour un modèle dense comparable, soit une réduction de 13 fois. Pour le modèle interne de 1T paramètres, ce chiffre tombe à 3,19 Gbps, un niveau compatible avec une simple liaison Ethernet inter-datacenter. C'est cette convergence entre optimisation architecturale des modèles et disaggrégation géographique de l'inférence qui fait de PrfaaS une proposition concrète et non plus spéculative.

UELes opérateurs européens déployant des LLM à grande échelle pourraient à terme adopter cette approche pour réduire leurs coûts d'infrastructure GPU, mais aucune entreprise ou institution européenne n'est directement impliquée.

InfrastructureOpinion
1 source