InfrastructureVentureBeat AI5j

Google échappe à la taxe Nvidia grâce à ses nouveaux TPUs

1 source couvre ce sujet·Source originale ↗·

Google a dévoilé mardi soir sa huitième génération de puces TPU (Tensor Processing Units) lors d'une présentation privée au F1 Plaza de Las Vegas. Contrairement aux générations précédentes, cette fois Google lance deux puces distinctes : le TPU 8t, conçu pour l'entraînement de grands modèles d'IA, et le TPU 8i, taillé pour l'inférence agentique à faible latence. Le TPU 8t affiche 2,8 fois les EFlops FP4 par pod par rapport à la génération précédente (121 contre 42,5), double la bande passante scale-up à 19,2 Tb/s par puce, et permet de relier plus d'un million de TPUs dans un seul job d'entraînement grâce à une nouvelle architecture réseau baptisée Virgo. Le TPU 8i, lui, multiplie par 9,8 les EFlops FP8 par pod (11,6 contre 1,2), par 6,8 la capacité HBM (331,8 To contre 49,2), et fait quadrupler la taille des pods (de 256 à 1 152 puces). Les deux chips doivent être disponibles courant 2025.

L'enjeu pour Google est d'abord économique. En fabriquant ses propres puces, Google échappe aux marges d'Nvidia, qui a transformé sa position de quasi-monopole sur les accélérateurs IA en l'une des valorisations boursières les plus élevées au monde. Amin Vahdat, vice-président senior et chief technologist AI & Infrastructure chez Google, a insisté sur l'intégration verticale totale de la stack Google, du silicium au logiciel, comme levier de compétitivité sur le coût par token. Pour les clients enterprise qui entraînent des modèles ou déploient des agents en production sur Google Cloud et Vertex AI, cela se traduit concrètement : jusqu'à présent, les mêmes accélérateurs servaient à la fois pour l'entraînement et l'inférence, avec les inefficacités que cela implique. La génération v8 est la première à traiter ces deux charges de travail comme des problèmes distincts, avec deux siliciums dédiés.

La décision de scinder la feuille de route en deux puces a été prise en 2024, soit un an avant que le reste de l'industrie ne pivote massivement vers les modèles de raisonnement, les agents et le reinforcement learning. "Deux ans avant tout le monde, nous avions compris qu'une puce par an ne suffirait plus", a résumé Vahdat. Pour le TPU 8i, Google a développé avec Google DeepMind une topologie réseau inédite appelée Boardfly, conçue pour réduire la latence plutôt que de maximiser le débit, un choix crucial pour les agents IA qui doivent répondre en temps réel. Le TPU 8t introduit également le TPU Direct Storage, qui achemine les données depuis le stockage directement dans la mémoire HBM sans passer par le CPU, réduisant le temps nécessaire à chaque epoch d'entraînement. Google positionne clairement cette génération comme une rupture technologique destinée à creuser l'écart avec ses concurrents sur le marché du cloud IA.

Impact France/UE

Les entreprises européennes utilisant Google Cloud pour l'entraînement de modèles IA ou le déploiement d'agents en production pourraient bénéficier d'un coût par token réduit grâce à la spécialisation des puces TPU v8.

À lire aussi

1Le Big Data

Minisforum : comment l’expert du mini-PC est devenu l’architecte de l’IA locale

Fondée en 2012 à Shenzhen sous le nom BESTSTAR TECH, la société qui allait devenir Minisforum a d'abord opéré dans l'ombre comme fabricant OEM, produisant des mini-PC pour des marques tierces comme Kodlix. Son virage grand public intervient en 2019, date à laquelle elle lance sa propre marque et affronte directement la concurrence mondiale. Depuis, l'entreprise a noué des partenariats stratégiques avec Intel et AMD pour accéder aux puces les plus récentes, et elle a progressivement repoussé les limites du format compact. Aujourd'hui, son catalogue s'articule autour de machines capables d'embarquer des processeurs de bureau dans des boîtiers de quelques litres, avec des connectiques haut de gamme comme l'OCuLink et l'USB4 v2. Le modèle phare de cette trajectoire est la MS-02 Ultra, distinguée par une médaille d'or aux CES 2026 Innovation Awards : ce châssis de seulement 4,8 litres accueille un processeur Core Ultra 9 285HX, jusqu'à 256 Go de DDR5 ECC, un port PCIe 5.0 x16 compatible avec des GPU dual-slot comme la RTX 5070, et un système de refroidissement à six caloducs pour absorber un TDP total de 240 W sans aucun bridage thermique. Cette montée en puissance n'est pas anodine. Elle répond à une demande croissante de professionnels et d'indépendants qui souhaitent faire tourner des charges de travail lourdes, virtualisation sous Proxmox, rendu 3D sous Blender, serveurs d'entreprise ou création vidéo en 16K, sans recourir à des tours encombrantes ni à des infrastructures cloud coûteuses. Avec plus de quatre millions d'utilisateurs revendiqués, Minisforum s'est imposé comme une référence dans un segment longtemps perçu comme secondaire. La station MS-02 Ultra casse définitivement le préjugé selon lequel la compacité implique un compromis sur la puissance brute. Le tournant le plus structurant reste cependant l'Edge AI. Jusqu'ici, les applications d'intelligence artificielle dépendaient de serveurs distants, ce qui entraînait des latences élevées et des risques réels pour la confidentialité des données. En 2026, les nouvelles générations de puces embarquent des NPU atteignant 86 TOPS, capables de traiter des modèles complexes en moins de 10 millisecondes directement en local, sans connexion cloud. Minisforum se positionne à l'avant-garde de cette bascule : ses appareils permettent de faire tourner des LLMs ou des pipelines d'inférence sur du matériel personnel, réduisant à la fois la dépendance aux infrastructures tierces et l'exposition des données sensibles. Ce mouvement vers l'IA embarquée redéfinit ce qu'un particulier ou une PME peut accomplir avec une machine tenant sur un bureau.

UEL'essor de l'IA locale embarquée sur mini-PC répond aux exigences de souveraineté des données imposées par le RGPD, permettant aux PME et indépendants européens de traiter des données sensibles sans dépendre du cloud américain.

InfrastructureOpinion

1 source

2The Verge

Canonical présente son plan pour intégrer l'IA dans Ubuntu Linux

Canonical, l'entreprise britannique éditrice d'Ubuntu, l'une des distributions Linux les plus utilisées au monde, a annoncé lundi un plan détaillé pour intégrer l'intelligence artificielle dans son système d'exploitation au cours des douze prochains mois. Jon Seager, vice-président de l'ingénierie chez Canonical, a publié un billet de blog exposant deux grandes orientations : d'abord enrichir les fonctionnalités existantes d'Ubuntu grâce à des modèles d'IA travaillant en arrière-plan, puis introduire des fonctionnalités et flux de travail dits "AI native" pour les utilisateurs qui le souhaitent. Parmi les exemples cités figurent des outils d'accessibilité améliorés comme la reconnaissance et la synthèse vocale, ainsi que des fonctionnalités agentiques capables d'exécuter des tâches complexes de manière autonome. Cette annonce marque un tournant pour Ubuntu, dont la base d'utilisateurs va des développeurs individuels aux grandes entreprises et infrastructures cloud. L'intégration native de l'IA directement dans le système d'exploitation pourrait transformer l'expérience quotidienne des utilisateurs, notamment pour l'automatisation de tâches, l'accessibilité et la productivité, sans dépendre d'applications tierces. Canonical rejoint ainsi une vague plus large d'éditeurs de systèmes d'exploitation qui cherchent à embarquer l'IA au coeur même de leurs plateformes, à l'image de Microsoft avec Copilot dans Windows ou d'Apple avec ses fonctionnalités Apple Intelligence. Pour Ubuntu, dont la force repose sur sa communauté open source et son adoption massive dans les environnements serveurs et développeurs, le défi sera d'implémenter ces capacités de manière transparente et respectueuse de la vie privée, tout en restant fidèle à l'esprit du logiciel libre.

UECanonical (entreprise britannique) éditrice d'Ubuntu, largement déployé dans les infrastructures serveurs et clouds européens, soulève des enjeux de conformité RGPD pour les organisations de la zone UE qui devront évaluer les flux de données liés aux futures fonctionnalités IA embarquées.

InfrastructureActu

1 source

3Le Big Data

ChatGPT Phone : tout ce qu’on sait du smartphone IA agentique qui veut tuer l’iPhone

OpenAI prépare son propre smartphone, baptisé en interne « Agentic Phone » ou « ChatGPT Phone », pour un lancement commercial prévu à l'horizon 2028. Le projet est orchestré par Sam Altman et le designer britannique Jony Ive, ancien directeur du design chez Apple et père de l'iPhone, qui travaille désormais pour OpenAI via son studio LoveFrom. Les premiers prototypes circulent déjà en interne depuis 2026. Financé en partie par SoftBank, l'appareil repose sur des puces NPU sur mesure développées en partenariat avec Qualcomm et MediaTek, conçues pour exécuter des modèles d'IA directement sur l'appareil, sans dépendre du cloud, garantissant rapidité et confidentialité. Ce qui distingue fondamentalement ce projet des smartphones existants, c'est le concept d'IA « agentique » : l'appareil ne se contente pas de répondre à des requêtes, il agit à la place de l'utilisateur. Fini l'enchaînement d'applications séparées pour réserver un taxi, envoyer un message et bloquer un créneau dans son agenda. L'utilisateur formule une instruction globale, et l'IA exécute l'ensemble des micro-tâches via les API concernées, sans interaction avec un écran. Ce modèle dits « Zéro UI » rend structurellement obsolète le paradigme de l'App Store, sur lequel reposent les revenus d'Apple, qui génère des dizaines de milliards de dollars annuels via ses commissions. Pour les développeurs, les utilisateurs et les plateformes, le changement de modèle serait radical : l'interface disparaît au profit d'une couche d'abstraction pilotée par l'IA. Ce projet s'inscrit dans une course plus large à la reconfiguration de l'informatique personnelle. Depuis l'émergence des grands modèles de langage comme GPT-4 puis GPT-5, plusieurs acteurs cherchent à transposer leur puissance dans le hardware du quotidien. Le Humane Pin et le Rabbit R1 ont tenté l'exercice avant OpenAI, avec des résultats décevants, faute de modèles suffisamment capables. OpenAI parie que ses prochaines générations de modèles, GPT-5.5 et au-delà, atteindront le niveau d'autonomie nécessaire pour que l'expérience soit réellement fluide. Apple, de son côté, reste contraint par la logique de l'App Store et de ses partenariats développeurs, ce qui ralentit sa capacité à adopter une interface agentique complète. Si OpenAI réussit à combiner un hardware performant, une IA locale robuste et une expérience sans friction, le rapport de force dans l'industrie mobile pourrait changer pour la première fois depuis 2007.

UESi ce smartphone agentique atteint le marché européen d'ici 2028, il pourrait fragiliser le modèle économique des développeurs d'applications européens dépendant des app stores, et soulève des questions réglementaires au regard de l'AI Act sur les systèmes IA autonomes à haute autonomie d'action.

InfrastructureOpinion

1 source

436Kr

最前线｜爱芯元智仇肖莘：大算力芯片将成为企业明年的主要增长引擎

Le fabricant chinois de semi-conducteurs Aixtek (爱芯元智) a profité du Salon de l'automobile de Pékin pour annoncer la formation de la « Qianli Alliance » avec Qianli Technology et Jiyue, tout en confirmant le lancement de sa puce M97 pour le troisième trimestre 2025. Sa fondatrice Qiu Xiaoshen a déclaré publiquement que la puce, dédiée à l'assistance à la conduite à haute puissance de calcul, avait déjà passé l'étape du « tape-out » et entrait dans son cycle de développement standard. Dotée de plus de 700 TOPS de puissance de calcul, elle sera progressivement intégrée dans plusieurs modèles de véhicules dès 2026. Aujourd'hui, les produits traditionnels de calcul embarqué représentent encore plus de 80 % du chiffre d'affaires d'Aixtek, mais la direction prévoit que cette répartition se rééquilibrera profondément dans les trois prochaines années. La M97 est conçue pour résoudre un problème structurel que Qiu Xiaoshen identifie comme le talon d'Achille des puces d'assistance à la conduite actuelles : la bande passante mémoire insuffisante. Elle explique qu'une puce de 2 000 TOPS ne délivre pas sa pleine puissance si la bande passante DDR est le goulot d'étranglement. En choisissant un procédé de fabrication d'une génération d'avance sur les concurrents (5 nm ou 4 nm contre 7 nm), Aixtek vise des fréquences DDR supérieures à 8 533 MT/s, voire 9 600 MT/s, contre un maximum de 6 400 MT/s en 7 nm. Ce saut de procédé réduit également la surface du die et améliore les rendements de production, ce qui contribue à la maîtrise des coûts. La stratégie d'Aixtek s'inscrit dans un contexte où l'évolution technologique de la conduite autonome reste incertaine, mais converge vers des architectures de plus en plus gourmandes en calcul : modèles end-to-end, VLM (Vision-Language Models), et désormais VLA (Vision-Language-Action), qui tentent de fusionner compréhension sémantique et pilotage en un seul modèle. L'entreprise, qui se positionne comme une plateforme de puces « neutre et indépendante » afin de laisser aux constructeurs le choix de leur fournisseur, mise également sur le calcul en périphérie (edge computing) : deux nouvelles puces edge seront lancées au second semestre 2025, compatibles avec les grands modèles comme Qwen. Qiu Xiaoshen voit dans les boîtiers d'agents IA locaux, capables de faire tourner un LLM à domicile sans passer par le cloud, un marché grand public à fort potentiel d'explosion.

UEImpact indirect sur les équipementiers automobiles européens qui suivent l'évolution des puces ADAS chinoises comme référence concurrentielle.

InfrastructureActu

1 source