Avancé·3 min·24 avril 2026

DeepSeek-V4 : un million de tokens que les agents utilisent enfin

🎧 Résumé audio0:00 / 0:00

DeepSeek-V4 casse le problème de mémoire des agents longs : 27% de calcul en moins, 2% de cache KV contre ses concurrents.

Pourquoi ça compte pour toi

Si tu testes des agents (coding, browsing, terminal), tu sais que les modèles craquent après quelques dizaines d'étapes : le cache GPU plein, le contexte explosé. V4 change la donne en rendant viable un million de tokens sans surcoût ridicule. C'est un tournant silencieux : pas un benchmark phare, mais une vraie architecture pensée pour les workflows agentiques qui durent.

Ce qu'il faut retenir

1.Attention hybride (CSA + HCA) : compresse le KV cache de 98% vs grouped query attention classique
2.Préserve le raisonnement à travers les appels d'outils : le modèle garde sa trace mentale même si l'utilisateur relance
3.Format tool-call en XML au lieu de JSON : moins d'échecs d'échappement, analyse syntaxique plus robuste
4.Benchmarks agents solides : 80.6 sur SWE-Bench, devant Sonnet 4.5 en coding interne

Pourquoi les agents échouent aujourd'hui

Tu lances un agent pour automatiser une tâche : scraper un site, refactoriser du code, naviguer dans une CLI. Première dizaine d'étapes, tout fonctionne. Puis ça ralentit. Le contexte s'accumule. Le GPU ne peut plus tenir le KV cache complet. L'agent oublie ce qu'il faisait. Fin du truc.

DeepSeek-V4 attaque deux problèmes :

1. Le coût du cache KV

Chaque nouveau token doit calculer son attention sur tous les tokens précédents. À 1M tokens, c'est un fardeau massif. V4-Pro demande 27% des FLOPs que V3.2 demandait à la même longueur. V4-Flash ? 10%.

Mais le vrai chiffre : le cache KV ne pèse que 2% de ce qu'une attention standard bloquerait. Comment ? Deux mécanismes d'attention qui s'alternent :

▸CSA (Compressed Sparse Attention) : compresse chaque bloc de 4 tokens en 1, puis sélectionne de façon éparse les blocs pertinents avec un indexeur ultra-rapide (FP4).
▸HCA (Heavily Compressed Attention) : compresse 128x et fonce droit sans sélection éparse (dense sur une séquence minuscule, c'est gratuit).

Chaque couche utilise l'une ou l'autre en alternance. Le dernier bloc n'utilise qu'une fenêtre glissante pour la récence. Résultat : tu peux tenir 1M tokens sans asphyxier le GPU.

2. Le raisonnement qui s'oublie

V3.2 jetait tout le raisonnement interne d'une étape dès que l'utilisateur envoyait un nouveau message. Pour un chat classique, ok. Pour un agent qui enchaîne 10 appels d'outils ? Catastrophe. L'agent doit tout reconstruire depuis zéro.

V4 préserve la trace mentale complète à travers tous les appels d'outils et les tours de conversation. L'agent accumule sa pensée comme une vraie chaîne logique.

Ce qui change pour toi

Appels d'outils robustes : V4 utilise XML au lieu de JSON-in-string. Moins d'échappements cassés quand le modèle produit du HTML ou des nombres dans les paramètres. Les paramètres structurés sont séparés (JSON strict) des chaînes de caractères (brutes).

Infrastructure d'entraînement : DeepSeek a construit DSec, un bac à sable Rust capable de lancer des centaines de milliers de déploiements de RL en parallèle. Conteneurs, microVMs, VMs complètes sous une seule API Python. Ça explique pourquoi V4 est si bon sur les benchmarks agents : il a été entraîné contre de vrais outils.

Les chiffres

▸Terminal Bench 2.0 : 67.9 (GPT-5.4 = 75.1, Gemini-3.1 = 68.5)
▸SWE Verified : 80.6 problèmes résolus (Opus-4.6 = 80.8)
▸Coding interne (85 développeurs DeepSeek) : 67% de réussite contre 47% pour Sonnet 4.5

C'est pas SOTA sur les benchmarks classiques. Mais sur les tâches agentiques longues, V4-Pro-Max distance nettement la majorité du champ.

À retenir

V4 n'est pas spectaculaire en benchmark brut. C'est une architecture pensée pour un usage spécifique : les agents qui tournent longtemps. Si tu veux déployer un workflow agentique sans relancer le contexte toutes les 5 secondes, c'est un vrai candidat.

Essayer maintenant

Télécharger DeepSeek-V4 sur Hugging Face →

Source