Quantization
Définition
La quantization réduit la précision des nombres qui représentent les poids d'un modèle IA, passant par exemple de 32 bits à 8 bits. Cela diminue drastiquement la taille du modèle et sa consommation de mémoire, tout en gardant une performance acceptable.
📌 Exemple concret
Un modèle de 70 milliards de paramètres peut passer de 140 GB à 35 GB en mémoire grâce à la quantization, ce qui le rend exécutable sur du matériel moins puissant.
💡 Pourquoi ça compte
Permet de déployer des modèles puissants sur des appareils mobiles ou serveurs moins chers, rendant l'IA accessible à plus de monde.
