← Articles EN
Benchmark · IA générative

Génération d'images sur le DGX Spark : 11 modèles comparés

J'ai testé la puissance de ce mini superordinateur de bureau sur la génération d'images : FLUX, Stable Diffusion, Qwen, Z-Image — le tout avec le même prompt, le même seed, les mêmes conditions.

Sébastien Burel · haruni.net · Janvier 2026

Pourquoi ce test ?

Le NVIDIA DGX Spark est une machine assez exceptionnelle : un superordinateur IA taille bureau, propulsé par le Grace Blackwell Superchip GB10. C'est une puce qui réunit un CPU ARM 20 cœurs et un GPU Blackwell sur un seul package, avec 128 Go de mémoire unifiée partagée entre les deux. Le tout branché sur une simple prise murale.

Sur le papier, ça promet de faire tourner de très grands modèles localement, sans cloud, sans abonnement, sans envoyer ses données quelque part. J'ai voulu vérifier ça en pratique, sur un cas concret : la génération d'images à partir d'un texte.

J'ai écrit un notebook interactif en Marimo (une alternative moderne à Jupyter) permettant de choisir un modèle, saisir un prompt, régler les paramètres, et générer une image avec une barre de progression en temps réel. J'ai ensuite lancé 11 modèles différents dans les mêmes conditions exactes pour comparer vitesse, qualité et consommation mémoire.

Le matériel : NVIDIA DGX Spark, puce GB10 Grace Blackwell, 128 Go LPDDR5x de mémoire unifiée CPU+GPU, 4 To NVMe, 20 cœurs ARM, jusqu'à 1 pétaFLOP de performance IA en FP4.

Le DGX Spark, c'est quoi exactement ?

Le DGX Spark n'est pas un PC gamer boosté. C'est une machine pensée de A à Z pour l'intelligence artificielle, dans un format compact qui tient sur un bureau. Sa particularité principale : la mémoire unifiée. Le CPU et le GPU partagent le même pool de 128 Go — ce qui signifie qu'on peut charger des modèles très lourds sans se soucier de la VRAM, qui est souvent le goulot d'étranglement sur les configurations classiques.

128 Go Mémoire unifiée CPU+GPU
1 PFLOP Performance IA (FP4)
20 Cœurs ARM Cortex
273 GB/s Bande passante mémoire
4 To Stockage NVMe
240 W Consommation max

Ce qui est notable, c'est que la limite ici n'est pas la mémoire (128 Go, c'est considérable) mais la bande passante mémoire : 273 Go/s partagés entre CPU et GPU, contre plusieurs To/s sur un H100 de datacenter. C'est le vrai goulot d'étranglement de cette machine pour les charges IA intensives.

Le notebook de test

Plutôt que de lancer des scripts en ligne de commande, j'ai construit une interface interactive en Marimo. L'idée : pouvoir choisir son modèle dans un menu déroulant, régler ses paramètres (nombre de steps, guidance scale, seed, ratio d'aspect) et générer des images avec un retour visuel en temps réel. À chaque génération, les paramètres sont automatiquement sauvegardés dans un fichier JSON pour pouvoir reproduire ou comparer les résultats.

La fonction centrale de chargement est volontairement simple — c'est la librairie diffusers de Hugging Face qui fait le travail lourd :

from diffusers import DiffusionPipeline import torch def loadModel(model_name): pipeline = DiffusionPipeline.from_pretrained( model_name, torch_dtype=torch.bfloat16, local_files_only=True, use_safetensors=True ).to('cuda') return pipeline

Tous les modèles sont chargés avec le type de données bfloat16 pour équilibrer précision et consommation mémoire. Le flag local_files_only garantit que les modèles sont utilisés depuis le disque local, sans appel réseau pendant la génération.

Pour le benchmark, j'ai gardé exactement les mêmes paramètres sur chaque modèle :

Les 11 modèles face à face

Voici le tableau complet des mesures. La durée de génération est le temps pur de diffusion (hors chargement). La mémoire indique le pic de mémoire GPU mesurée pendant la génération.

Modèle Famille Chargement Génération Durée Mémoire
SD 3.5 medium
stabilityai/stable-diffusion-3.5-medium
SD 3.5 66s 34s
34s
22 Go
Z-Image-Turbo
Tongyi-MAI/Z-Image-Turbo
Z-Image 63s 178s
178s
22 Go
Z-Image
Tongyi-MAI/Z-Image
Z-Image 120s 179s
179s
22 Go
SD 3.5 large
stabilityai/stable-diffusion-3.5-large
SD 3.5 171s 82s
82s
29 Go
SD 3.5 large turbo
stabilityai/stable-diffusion-3.5-large-turbo
SD 3.5 171s 82s
82s
29 Go
FLUX.2-klein-9B
black-forest-labs/FLUX.2-klein-9B
FLUX.2 266s 95s
95s
66 Go
FLUX.1-schnell
black-forest-labs/FLUX.1-schnell
FLUX.1 291s 110s
110s
72 Go
FLUX.1-dev
black-forest-labs/FLUX.1-dev
FLUX.1 284s 111s
111s
95 Go
FLUX.1-Kontext-dev
black-forest-labs/FLUX.1-Kontext-dev
FLUX.1 289s 111s
111s
66 Go
Qwen-Image-2512
Qwen/Qwen-Image-2512
Qwen 427s 212s
212s
63 Go
FLUX.2-dev (4-bit)
diffusers/FLUX.2-dev-bnb-4bit
FLUX.2 265s 397s
397s
34 Go

Les images générées

Toutes les images ci-dessous ont été générées avec le même prompt, le même seed (42) et les mêmes paramètres. Seul le modèle change — ce qui rend la comparaison directement lisible.

SD 3.5 medium
SD 3.5 medium
34s · 22 Go
Rapide, léger, très photographique
Z-Image-Turbo
Z-Image-Turbo
178s · 22 Go
Yeux verts très saturés, style « illustration »
Z-Image
Z-Image
179s · 22 Go
Rendu naturel, pull bleu, ambiance printanière
SD 3.5 large
SD 3.5 large
82s · 29 Go
Grain film, cadrage serré, très réaliste
SD 3.5 large turbo
SD 3.5 large turbo
82s · 29 Go
Surexposé, teinte chaude, style commercial
FLUX.2-klein-9B
FLUX.2-klein-9B
95s · 66 Go
Composition professionnelle, bras croisés, Tour Eiffel centrée
FLUX.1-schnell
FLUX.1-schnell
110s · 72 Go
Ambiance café parisien, foulard, regard doux
FLUX.1-dev
FLUX.1-dev
111s · 95 Go
Très détaillé, peau texturée, lumière dorée
FLUX.1-Kontext-dev
FLUX.1-Kontext-dev
111s · 66 Go
Rue ensoleillée, style propre et lumineux
Qwen-Image-2512
Qwen-Image-2512
212s · 63 Go
Portrait sobre, bords de Seine, rendu plus âgé
FLUX.2-dev (4-bit)
FLUX.2-dev (4-bit)
397s · 34 Go
Cerisiers en fleurs, naturel — mais 397s d'attente !

Prompt : « A 35 years young woman in paris during spring. Blond hairs, green eyes. 35mm, professional photographer. » — 1024×1024, 50 steps, guidance 4.0, seed 42.

Les enseignements du benchmark

Le plus rapide
SD 3.5 medium

34 secondes de génération, 22 Go de mémoire. Rapport vitesse/qualité remarquable.

🐢
Le plus lent
FLUX.2-dev 4-bit

397 secondes — paradoxal pour une version quantifiée censée être plus légère.

🧠
Le plus gourmand
FLUX.1-dev : 95 Go

Impossible à faire tourner sur une configuration avec moins de 80-90 Go de VRAM.

🪶
Les plus légers
Z-Image & SD 3.5 medium

22 Go seulement — accessibles sur des configurations bien moins onéreuses.

La quantification 4-bit, pas toujours gagnante

La version FLUX.2-dev-bnb-4bit est une version du modèle FLUX.2-dev compressée en 4 bits (au lieu de 16) pour réduire sa taille en mémoire. Résultat : 34 Go consommés au lieu de 66. Sur le papier, c'est une excellente idée.

Mais en pratique, c'est le modèle le plus lent de ce benchmark : 397 secondes de génération, soit 3,5× plus lent que FLUX.2-klein qui consomme pourtant le même espace. La quantification a un coût computationnel que le GB10 compense difficilement — probablement en raison de la bande passante mémoire limitée du DGX Spark (273 Go/s) qui amplifie ce surcoût.

SD 3.5 large = SD 3.5 large turbo ?

Résultat identique sur les deux : 171 secondes de chargement, 82 secondes de génération, 29 Go de mémoire. Les deux modèles ont vraisemblablement été optimisés pour les mêmes cibles de performance. Le « turbo » se traduit normalement par une réduction du nombre de steps nécessaires pour une bonne qualité — testable avec moins de 50 steps.

Z-Image vs Z-Image-Turbo : même constat

Les deux variantes de Z-Image (de Tongyi-MAI) sont pratiquement identiques en temps : 178 et 179 secondes. La différence entre les deux pourrait se révéler davantage avec un nombre de steps réduit.

Le DGX Spark, une machine faite pour les gros modèles

Ce que ce test illustre bien, c'est que le DGX Spark brille par sa capacité mémoire bien plus que par sa vitesse brute. Des modèles comme FLUX.1-dev (95 Go) ou Qwen-Image (63 Go) sont tout simplement impossibles à faire tourner sur un GPU classique, même haut de gamme. Ici, ils tournent — lentement parfois, mais ils tournent.

Pour de la production à haute cadence, ce n'est pas la bonne machine. Pour de l'exploration, du prototypage, ou tester des modèles énormes localement sans cloud ni abonnement, c'est une proposition unique en son genre.

Ce que j'en retiens

Le DGX Spark est une machine fascinante et un peu hors-norme. Ce n'est pas le GPU le plus rapide sur la génération d'images — un RTX 5090 avec 32 Go de VRAM serait probablement plus véloce sur les modèles qui tiennent en mémoire. Mais c'est une machine qui peut tout faire tourner, localement, sans contrainte de VRAM, avec la stack CUDA complète de NVIDIA.

Pour quelqu'un qui veut explorer l'état de l'art de la génération d'images — ou de LLMs — sans dépendre du cloud et sans être bridé par la mémoire, c'est un outil remarquable.

🏆
Meilleur rapport vitesse/mémoire
SD 3.5 medium — 34s / 22 Go
🎯
Meilleur équilibre
FLUX.1-schnell — 110s / 72 Go
🦾
Plus gros modèle supporté
FLUX.1-dev — 95 Go sur 128 Go

La prochaine étape sera de tester ces mêmes modèles avec des prompts plus complexes et en faisant varier le nombre de steps — pour voir si le « turbo » justifie vraiment son nom avec 10 ou 20 steps au lieu de 50.

Intéressé par un projet similaire ? Je suis disponible pour des missions de machine learning engineering — modélisation, pipelines de données, mise en production. N'hésitez pas à me contacter.