
NVIDIA publie Nemotron-Cascade 2 : un MoE open source de 30 milliards de paramètres avec 3 milliards actifs, offrant un meilleur raisonnement et de solides capacités agentiques
NVIDIA vient de dévoiler Nemotron-Cascade 2, un modèle open-weight de type Mixture-of-Experts (MoE) doté de 30 milliards de paramètres totaux, dont seulement 3 milliards activés lors de l'inférence. Ce modèle marque une étape notable dans la course à la « densité d'intelligence » : délivrer des capacités de raisonnement avancées avec une empreinte computationnelle réduite, rendant le modèle accessible à une large communauté de développeurs et chercheurs.
L'enjeu stratégique est de taille pour NVIDIA, qui consolide ainsi sa position dans l'écosystème des LLM open source face à des concurrents comme Qwen (Alibaba) ou Mistral. En ciblant spécifiquement le raisonnement mathématique, le code et les tâches agentiques, le modèle s'adresse directement aux cas d'usage industriels et académiques les plus exigeants — là où les modèles généralistes montrent souvent leurs limites.
Les résultats sont particulièrement frappants sur des benchmarks de référence : 92,4 sur AIME 2025 (contre 91,9 pour le Qwen3.5-35B-A3B), 87,2 sur LiveCodeBench v6 (contre 74,6), et 83,5 sur ArenaHard v2 (contre 65,4). Il devient par ailleurs le deuxième modèle open-weight à atteindre le niveau Médaille d'Or simultanément aux Olympiades Internationales de Mathématiques (IMO), à l'IOI et aux ICPC World Finals 2025. Ces performances reposent sur un pipeline d'entraînement en trois étapes : un fine-tuning supervisé sur 1,9 million de traces Python, suivi d'un Cascade RL (apprentissage par renforcement séquentiel par domaine pour éviter l'oubli catastrophique), et enfin une innovation clé baptisée MOPD (Multi-Domain On-Policy Distillation), qui surpasse le GRPO en efficacité d'échantillonnage — atteignant un score de 92,0 sur AIME25 en seulement 30 étapes contre 91,0 pour GRPO.
Le modèle propose deux modes d'inférence distincts via son template de chat — un mode raisonnement activé par un token <think> pour les tâches complexes, et un mode direct plus rapide pour les réponses simples — ainsi qu'un protocole structuré de tool-calling pour les applications agentiques. Cette architecture modulaire en fait un candidat sérieux pour les pipelines d'agents autonomes, un segment en forte croissance en 2026.
Modèle open-weight librement accessible aux développeurs et entreprises européens pour des cas d'usage de raisonnement avancé et d'agents IA.


