La quantification 4-bit coûte-t-elle de la qualité ? Mesurer NVFP4 Mistral-Small-4

Suite de mon article Servir Mistral-Small-4-119B avec vLLM sur DGX Spark, qui couvrait l'installation et la configuration. Ici : la qualité.

Dans mon article précédent, je détaillais comment faire servir de façon fiable Mistral-Small-4-119B en NVFP4 sur un seul DGX Spark (GB10, 128 Go de mémoire unifiée) sous vLLM — l'installation, le service systemd, et les pièges du GPU Blackwell consumer (SM121) qu'il faut contourner. Le modèle tourne, il répond.

Mais chaque fois que je partage ce montage, la même question revient — et un lecteur l'a posée sans détour : c'est servable, d'accord, mais c'est du 4-bit — qu'est-ce que vous avez perdu en qualité ?

C'est la bonne question, et la plupart des réponses qu'on lui donne relèvent du ressenti. Alors j'ai arrêté de supposer, et j'ai mesuré.

Le problème du « faites confiance aux chiffres de recovery »

Le checkpoint NVFP4 officiel est publié sans aucun chiffre de recovery face à sa base BF16. Et même quand des chiffres génériques existent pour un modèle quantifié, ils répondent rarement à la question qui compte vraiment pour vous : est-ce que ça tient pour ma tâche — de l'analyse de texte, en français, sur des contextes de taille moyenne ?

La seule réponse honnête, c'est un A/B ancré sur le vrai cas d'usage.

Le dispositif (avec un caveat annoncé haut et fort, pas enterré)

Deux endpoints, les mêmes prompts, les mêmes réglages (température 0, reasoning désactivé) :

Candidate — le modèle NVFP4 local servi par vLLM.
Référence — mistral-small-latest via l'API Mistral, qui tient le rôle de la « pleine précision ».

Cette référence mérite un caveat que je préfère poser d'emblée plutôt que cacher : c'est l'API hostée, pas un BF16 local contrôlé. Un modèle de 119 milliards de paramètres en BF16 pèse environ 238 Go — il ne tient pas sur un seul Spark de 128 Go, donc une vraie référence locale immaculée n'était pas envisageable. L'API est la référence pleine précision la plus accessible, mais elle peut appliquer ses propres optimisations de service. À lire donc comme NVFP4 vs service pleine précision, et non NVFP4 vs poids immaculés.

La méthodologie

J'ai séparé l'évaluation en deux familles.

Les tâches à vérité-terrain, où une bonne réponse existe et où aucun juge n'est nécessaire : du QA extractif issu de PIAF (un jeu de compréhension de lecture nativement français, sous licence MIT), scoré par F1 au niveau token ; plus de la classification (exact match) et de l'extraction (F1 ensembliste). Déterministe, peu coûteux, objectif.

L'analyse ouverte, où il n'y a pas de réponse unique : résumer, identifier les entités clés, lister les affirmations vérifiables, etc., sur des articles de Wikipédia FR d'environ 1000 mots (CC BY-SA). Celles-là, je les ai scorées avec un juge pairwise en aveugle (GPT-4.1) — avec un détail qui compte : chaque paire est jugée deux fois, en intervertissant les deux réponses entre la position A et la position B. Un verdict ne compte que s'il est cohérent dans les deux ordres ; sinon, c'est une égalité. Cela annule le biais de position bien connu des juges LLM, et le juge ne sait jamais laquelle des deux réponses est la quantifiée.

Tout a tourné à température 0 et reasoning_effort=none — les réglages que je déploierais réellement pour de l'analyse. 200 exemples au total : 150 en analyse ouverte, 50 en QA gold.

Les résultats

QA gold (50 items)

Métrique	NVFP4 (local)	Pleine précision (API)
F1 token	0,34	0,35

Un écart de 0,01 — autrement dit, rien. (Le niveau absolu est bas parce que PIAF récompense les spans de réponse minimaux alors que les modèles répondent en phrases complètes ; c'est un artefact de métrique, pas un signal de qualité. Ce qui compte, c'est que les deux soient à égalité.)

Analyse ouverte (150 prompts)

Verdict	Nombre (sur 150)
NVFP4 préféré	50
Égalité	60
Pleine précision préférée	40

Le modèle quantifié a même été préféré un peu plus souvent que la pleine précision.

Cet avantage est-il réel ? Non — et voici la façon la plus nette de le montrer. Dans un pilote plus petit (40 prompts d'analyse), c'était la référence qui menait, 13 victoires à 8. En passant à 150, ça s'est inversé : le modèle quantifié menait, 50 à 40. Un avantage qui change de signe quand on ajoute des données, c'est la signature même du bruit.

La statistique confirme. Sur les 90 verdicts tranchés (égalités exclues), 50–40 se situe à environ un écart-type d'un partage équilibré (p ≈ 0,34 ; l'intervalle à 95 % sur la part de victoires du modèle quantifié est [0,45 ; 0,66], qui englobe largement 0,50). Il n'y a aucune différence statistiquement significative, dans un sens comme dans l'autre.

Autrement dit : dans 73 % des prompts d'analyse, le NVFP4 a été jugé au moins aussi bon que la pleine précision — et les 27 % restants ne forment pas un avantage cohérent pour la référence.

Lire ça honnêtement

« Aucune différence significative » n'est pas « prouvé identique ». Ça veut dire : avec 200 exemples et ce juge, je n'ai pas pu détecter d'écart de qualité. C'est un résultat qui a du sens, mais il a des limites qu'il faut nommer :

La référence est l'API, pas un BF16 contrôlé (voir plus haut).
n = 200 reste modeste ; un écart inférieur à ~5–10 points pourrait se cacher dans le bruit.
Un juge unique a ses propres préférences ; l'ordre bilatéral annule le biais de position, pas le biais d'identité de modèle.
reasoning_effort = none uniquement ; le mode raisonnement pourrait se comporter différemment.
Les textes d'analyse sont encyclopédiques généralistes (Wikipédia), pas spécifiques à un domaine. Pour votre domaine, relancez sur vos textes.

Ce qu'il faut en retenir

Pour de l'analyse de texte à contexte moyen, NVFP4 Mistral-Small-4 sur un seul GB10 vous donne une sortie de qualité équivalente à la pleine précision, sans la moindre taxe de qualité mesurable — sur le même montage à un seul GB10 que mon article précédent, une machine posée sous votre bureau qui garde chaque token en local.

Pour quiconque évalue l'inférence locale pour des raisons de souveraineté ou de résidence des données, c'est le chiffre qui manquait. Sur cette charge de travail, la remise du 4-bit semble gratuite.

Pour reproduire : le banc d'essai est open-source (MIT) — le scoring gold, le juge bilatéral, et un générateur qui assemble le jeu d'évaluation à partir de sources françaises sous licence ouverte, pour que vous puissiez le reproduire ou le pointer sur vos propres données : github.com/haruni-net/llm-quant-ab. Si vous le faites, je serais curieux de vos résultats.

Un projet similaire vous intéresse ? Je suis disponible pour des missions de machine learning engineering — déploiement de LLM, optimisation d'inférence, évaluation de modèles. N'hésitez pas à me contacter.