Pourquoi ce test ?
Le NVIDIA DGX Spark est une machine assez exceptionnelle : un superordinateur IA taille bureau, propulsé par le Grace Blackwell Superchip GB10. C'est une puce qui réunit un CPU ARM 20 cœurs et un GPU Blackwell sur un seul package, avec 128 Go de mémoire unifiée partagée entre les deux. Le tout branché sur une simple prise murale.
Sur le papier, ça promet de faire tourner de très grands modèles localement, sans cloud, sans abonnement, sans envoyer ses données quelque part. J'ai voulu vérifier ça en pratique, sur un cas concret : la génération d'images à partir d'un texte.
J'ai écrit un notebook interactif en Marimo (une alternative moderne à Jupyter) permettant de choisir un modèle, saisir un prompt, régler les paramètres, et générer une image avec une barre de progression en temps réel. J'ai ensuite lancé 11 modèles différents dans les mêmes conditions exactes pour comparer vitesse, qualité et consommation mémoire.
Le DGX Spark, c'est quoi exactement ?
Le DGX Spark n'est pas un PC gamer boosté. C'est une machine pensée de A à Z pour l'intelligence artificielle, dans un format compact qui tient sur un bureau. Sa particularité principale : la mémoire unifiée. Le CPU et le GPU partagent le même pool de 128 Go — ce qui signifie qu'on peut charger des modèles très lourds sans se soucier de la VRAM, qui est souvent le goulot d'étranglement sur les configurations classiques.
Ce qui est notable, c'est que la limite ici n'est pas la mémoire (128 Go, c'est considérable) mais la bande passante mémoire : 273 Go/s partagés entre CPU et GPU, contre plusieurs To/s sur un H100 de datacenter. C'est le vrai goulot d'étranglement de cette machine pour les charges IA intensives.
Le notebook de test
Plutôt que de lancer des scripts en ligne de commande, j'ai construit une interface interactive en Marimo. L'idée : pouvoir choisir son modèle dans un menu déroulant, régler ses paramètres (nombre de steps, guidance scale, seed, ratio d'aspect) et générer des images avec un retour visuel en temps réel. À chaque génération, les paramètres sont automatiquement sauvegardés dans un fichier JSON pour pouvoir reproduire ou comparer les résultats.
La fonction centrale de chargement est volontairement simple — c'est la librairie diffusers de Hugging Face qui fait le travail lourd :
Tous les modèles sont chargés avec le type de données bfloat16 pour équilibrer précision et consommation mémoire. Le flag local_files_only garantit que les modèles sont utilisés depuis le disque local, sans appel réseau pendant la génération.
Pour le benchmark, j'ai gardé exactement les mêmes paramètres sur chaque modèle :
- Prompt identique : « A 35 years young woman in paris during spring. Blond hairs, green eyes. 35mm, professional photographer. »
- Seed fixe :
42(pour la reproductibilité) - 50 steps d'inférence
- Guidance scale : 4.0
- Résolution : 1024×1024 pixels
Les 11 modèles face à face
Voici le tableau complet des mesures. La durée de génération est le temps pur de diffusion (hors chargement). La mémoire indique le pic de mémoire GPU mesurée pendant la génération.
| Modèle | Famille | Chargement | Génération | Durée | Mémoire |
|---|---|---|---|---|---|
SD 3.5 medium stabilityai/stable-diffusion-3.5-medium |
SD 3.5 | 66s | 34s | 22 Go | |
Z-Image-Turbo Tongyi-MAI/Z-Image-Turbo |
Z-Image | 63s | 178s | 22 Go | |
Z-Image Tongyi-MAI/Z-Image |
Z-Image | 120s | 179s | 22 Go | |
SD 3.5 large stabilityai/stable-diffusion-3.5-large |
SD 3.5 | 171s | 82s | 29 Go | |
SD 3.5 large turbo stabilityai/stable-diffusion-3.5-large-turbo |
SD 3.5 | 171s | 82s | 29 Go | |
FLUX.2-klein-9B black-forest-labs/FLUX.2-klein-9B |
FLUX.2 | 266s | 95s | 66 Go | |
FLUX.1-schnell black-forest-labs/FLUX.1-schnell |
FLUX.1 | 291s | 110s | 72 Go | |
FLUX.1-dev black-forest-labs/FLUX.1-dev |
FLUX.1 | 284s | 111s | 95 Go | |
FLUX.1-Kontext-dev black-forest-labs/FLUX.1-Kontext-dev |
FLUX.1 | 289s | 111s | 66 Go | |
Qwen-Image-2512 Qwen/Qwen-Image-2512 |
Qwen | 427s | 212s | 63 Go | |
FLUX.2-dev (4-bit) diffusers/FLUX.2-dev-bnb-4bit |
FLUX.2 | 265s | 397s | 34 Go |
Les images générées
Toutes les images ci-dessous ont été générées avec le même prompt, le même seed (42) et les mêmes paramètres. Seul le modèle change — ce qui rend la comparaison directement lisible.
Prompt : « A 35 years young woman in paris during spring. Blond hairs, green eyes. 35mm, professional photographer. » — 1024×1024, 50 steps, guidance 4.0, seed 42.
Les enseignements du benchmark
34 secondes de génération, 22 Go de mémoire. Rapport vitesse/qualité remarquable.
397 secondes — paradoxal pour une version quantifiée censée être plus légère.
Impossible à faire tourner sur une configuration avec moins de 80-90 Go de VRAM.
22 Go seulement — accessibles sur des configurations bien moins onéreuses.
La quantification 4-bit, pas toujours gagnante
La version FLUX.2-dev-bnb-4bit est une version du modèle FLUX.2-dev compressée en 4 bits (au lieu de 16) pour réduire sa taille en mémoire. Résultat : 34 Go consommés au lieu de 66. Sur le papier, c'est une excellente idée.
Mais en pratique, c'est le modèle le plus lent de ce benchmark : 397 secondes de génération, soit 3,5× plus lent que FLUX.2-klein qui consomme pourtant le même espace. La quantification a un coût computationnel que le GB10 compense difficilement — probablement en raison de la bande passante mémoire limitée du DGX Spark (273 Go/s) qui amplifie ce surcoût.
SD 3.5 large = SD 3.5 large turbo ?
Résultat identique sur les deux : 171 secondes de chargement, 82 secondes de génération, 29 Go de mémoire. Les deux modèles ont vraisemblablement été optimisés pour les mêmes cibles de performance. Le « turbo » se traduit normalement par une réduction du nombre de steps nécessaires pour une bonne qualité — testable avec moins de 50 steps.
Z-Image vs Z-Image-Turbo : même constat
Les deux variantes de Z-Image (de Tongyi-MAI) sont pratiquement identiques en temps : 178 et 179 secondes. La différence entre les deux pourrait se révéler davantage avec un nombre de steps réduit.
Le DGX Spark, une machine faite pour les gros modèles
Ce que ce test illustre bien, c'est que le DGX Spark brille par sa capacité mémoire bien plus que par sa vitesse brute. Des modèles comme FLUX.1-dev (95 Go) ou Qwen-Image (63 Go) sont tout simplement impossibles à faire tourner sur un GPU classique, même haut de gamme. Ici, ils tournent — lentement parfois, mais ils tournent.
Pour de la production à haute cadence, ce n'est pas la bonne machine. Pour de l'exploration, du prototypage, ou tester des modèles énormes localement sans cloud ni abonnement, c'est une proposition unique en son genre.
Ce que j'en retiens
Le DGX Spark est une machine fascinante et un peu hors-norme. Ce n'est pas le GPU le plus rapide sur la génération d'images — un RTX 5090 avec 32 Go de VRAM serait probablement plus véloce sur les modèles qui tiennent en mémoire. Mais c'est une machine qui peut tout faire tourner, localement, sans contrainte de VRAM, avec la stack CUDA complète de NVIDIA.
Pour quelqu'un qui veut explorer l'état de l'art de la génération d'images — ou de LLMs — sans dépendre du cloud et sans être bridé par la mémoire, c'est un outil remarquable.
La prochaine étape sera de tester ces mêmes modèles avec des prompts plus complexes et en faisant varier le nombre de steps — pour voir si le « turbo » justifie vraiment son nom avec 10 ou 20 steps au lieu de 50.