MMLU
Définition
Benchmark d'évaluation qui teste les connaissances générales d'une IA sur 57 disciplines différentes (maths, histoire, biologie, droit, etc.). MMLU signifie Massive Multitask Language Understanding. C'est le test standard pour mesurer la performance d'un LLM.
📌 Exemple concret
Claude obtient 88% au MMLU, tandis qu'un modèle plus faible atteint 65%. Ce score te dit combien de questions de culture générale l'IA peut répondre correctement.
💡 Pourquoi ça compte
MMLU te permet de comparer objectivement les capacités intellectuelles réelles de différents LLM avant de choisir lequel utiliser.
