L'inférence désagrégée sur AWS propulsée par llm-d est désormais disponible
AWS et la communauté open source llm-d annoncent la disponibilité de l'inférence désagrégée sur AWS, une avancée majeure pour le déploiement à grande échelle des modèles de langage. Cette collaboration, menée avec l'appui de Red Hat, aboutit à la mise à disposition d'un conteneur dédié — ghcr.io/llm-d/llm-d-aws — intégrant les bibliothèques spécifiques à l'infrastructure AWS, notamment l'Elastic Fabric Adapter (EFA) et libfabric.
À mesure que l'IA passe de la phase de prototypage à un déploiement industriel, l'inférence devient le goulot d'étranglement central. Les modèles raisonnants et agentiques génèrent désormais 10 fois plus de tokens que les systèmes à réponse directe, créant une charge variable et exponentielle qui dégrade les performances. L'inférence désagrégée répond à ce défi en séparant physiquement les deux phases du processus : la phase prefill (fortement liée au calcul) et la phase decode (fortement liée à la mémoire), permettant d'allouer des ressources GPU adaptées à chacune.
llm-d est un framework Kubernetes-natif construit au-dessus de vLLM, enrichi d'orchestration de niveau production, de planification avancée des requêtes et de support pour les interconnexions haute performance. La nouvelle intégration avec la bibliothèque NIXL permet notamment l'inférence multi-nœuds désagrégée et le parallélisme d'experts. Le tout est disponible sur Amazon SageMaker HyperPod et Amazon Elastic Kubernetes Service (EKS), après plusieurs mois de benchmarks itératifs pour garantir une version stable prête à l'emploi.
Cette initiative s'inscrit dans une tendance de fond : l'optimisation de l'inférence LLM devient un enjeu compétitif aussi important que l'entraînement des modèles eux-mêmes. En proposant des architectures de référence packagées — les well-lit paths — llm-d et AWS cherchent à démocratiser l'accès à ces optimisations avancées, jusqu'ici réservées aux équipes disposant d'une expertise infrastructure poussée.


