Benchmark de génération d'images sur le DGX Spark

Pourquoi ce test ?

Le NVIDIA DGX Spark est une machine assez exceptionnelle : un superordinateur IA taille bureau, propulsé par le Grace Blackwell Superchip GB10. C'est une puce qui réunit un CPU ARM 20 cœurs et un GPU Blackwell sur un seul package, avec 128 Go de mémoire unifiée partagée entre les deux. Le tout branché sur une simple prise murale.

Sur le papier, ça promet de faire tourner de très grands modèles localement, sans cloud, sans abonnement, sans envoyer ses données quelque part. J'ai voulu vérifier ça en pratique, sur un cas concret : la génération d'images à partir d'un texte.

J'ai écrit un notebook interactif en Marimo (une alternative moderne à Jupyter) permettant de choisir un modèle, saisir un prompt, régler les paramètres, et générer une image avec une barre de progression en temps réel. J'ai ensuite lancé 11 modèles différents dans les mêmes conditions exactes pour comparer vitesse, qualité et consommation mémoire.

Le matériel : NVIDIA DGX Spark, puce GB10 Grace Blackwell, 128 Go LPDDR5x de mémoire unifiée CPU+GPU, 4 To NVMe, 20 cœurs ARM, jusqu'à 1 pétaFLOP de performance IA en FP4.

Le DGX Spark, c'est quoi exactement ?

Le DGX Spark n'est pas un PC gamer boosté. C'est une machine pensée de A à Z pour l'intelligence artificielle, dans un format compact qui tient sur un bureau. Sa particularité principale : la mémoire unifiée. Le CPU et le GPU partagent le même pool de 128 Go — ce qui signifie qu'on peut charger des modèles très lourds sans se soucier de la VRAM, qui est souvent le goulot d'étranglement sur les configurations classiques.

128 Go Mémoire unifiée CPU+GPU

1 PFLOP Performance IA (FP4)

20 Cœurs ARM Cortex

273 GB/s Bande passante mémoire

4 To Stockage NVMe

240 W Consommation max

Ce qui est notable, c'est que la limite ici n'est pas la mémoire (128 Go, c'est considérable) mais la bande passante mémoire : 273 Go/s partagés entre CPU et GPU, contre plusieurs To/s sur un H100 de datacenter. C'est le vrai goulot d'étranglement de cette machine pour les charges IA intensives.

Le notebook de test

Plutôt que de lancer des scripts en ligne de commande, j'ai construit une interface interactive en Marimo. L'idée : pouvoir choisir son modèle dans un menu déroulant, régler ses paramètres (nombre de steps, guidance scale, seed, ratio d'aspect) et générer des images avec un retour visuel en temps réel. À chaque génération, les paramètres sont automatiquement sauvegardés dans un fichier JSON pour pouvoir reproduire ou comparer les résultats.

La fonction centrale de chargement est volontairement simple — c'est la librairie diffusers de Hugging Face qui fait le travail lourd :

from diffusers import DiffusionPipeline
import torch

def loadModel(model_name):
    pipeline = DiffusionPipeline.from_pretrained(
        model_name,
        torch_dtype=torch.bfloat16,
        local_files_only=True,
        use_safetensors=True
    ).to('cuda')
    return pipeline

Tous les modèles sont chargés avec le type de données bfloat16 pour équilibrer précision et consommation mémoire. Le flag local_files_only garantit que les modèles sont utilisés depuis le disque local, sans appel réseau pendant la génération.

Pour le benchmark, j'ai gardé exactement les mêmes paramètres sur chaque modèle :

Prompt identique : « A 35 years young woman in paris during spring. Blond hairs, green eyes. 35mm, professional photographer. »
Seed fixe : 42 (pour la reproductibilité)
50 steps d'inférence
Guidance scale : 4.0
Résolution : 1024×1024 pixels

Les 11 modèles face à face

Voici le tableau complet des mesures. La durée de génération est le temps pur de diffusion (hors chargement). La mémoire indique le pic de mémoire GPU mesurée pendant la génération.

Modèle	Famille	Chargement	Génération	Durée	Mémoire
SD 3.5 medium stabilityai/stable-diffusion-3.5-medium	SD 3.5	66s	34s	34s	22 Go
Z-Image-Turbo Tongyi-MAI/Z-Image-Turbo	Z-Image	63s	178s	178s	22 Go
Z-Image Tongyi-MAI/Z-Image	Z-Image	120s	179s	179s	22 Go
SD 3.5 large stabilityai/stable-diffusion-3.5-large	SD 3.5	171s	82s	82s	29 Go
SD 3.5 large turbo stabilityai/stable-diffusion-3.5-large-turbo	SD 3.5	171s	82s	82s	29 Go
FLUX.2-klein-9B black-forest-labs/FLUX.2-klein-9B	FLUX.2	266s	95s	95s	66 Go
FLUX.1-schnell black-forest-labs/FLUX.1-schnell	FLUX.1	291s	110s	110s	72 Go
FLUX.1-dev black-forest-labs/FLUX.1-dev	FLUX.1	284s	111s	111s	95 Go
FLUX.1-Kontext-dev black-forest-labs/FLUX.1-Kontext-dev	FLUX.1	289s	111s	111s	66 Go
Qwen-Image-2512 Qwen/Qwen-Image-2512	Qwen	427s	212s	212s	63 Go
FLUX.2-dev (4-bit) diffusers/FLUX.2-dev-bnb-4bit	FLUX.2	265s	397s	397s	34 Go

Les images générées

Toutes les images ci-dessous ont été générées avec le même prompt, le même seed (42) et les mêmes paramètres. Seul le modèle change — ce qui rend la comparaison directement lisible.

SD 3.5 medium

34s · 22 Go

Rapide, léger, très photographique

Z-Image-Turbo

178s · 22 Go

Yeux verts très saturés, style « illustration »

Z-Image

179s · 22 Go

Rendu naturel, pull bleu, ambiance printanière

SD 3.5 large

82s · 29 Go

Grain film, cadrage serré, très réaliste

SD 3.5 large turbo

82s · 29 Go

Surexposé, teinte chaude, style commercial

FLUX.2-klein-9B

95s · 66 Go

Composition professionnelle, bras croisés, Tour Eiffel centrée

FLUX.1-schnell

110s · 72 Go

Ambiance café parisien, foulard, regard doux

FLUX.1-dev

111s · 95 Go

Très détaillé, peau texturée, lumière dorée

FLUX.1-Kontext-dev

111s · 66 Go

Rue ensoleillée, style propre et lumineux

Qwen-Image-2512

212s · 63 Go

Portrait sobre, bords de Seine, rendu plus âgé

FLUX.2-dev (4-bit)

397s · 34 Go

Cerisiers en fleurs, naturel — mais 397s d'attente !

Prompt : « A 35 years young woman in paris during spring. Blond hairs, green eyes. 35mm, professional photographer. » — 1024×1024, 50 steps, guidance 4.0, seed 42.

Les enseignements du benchmark

⚡

Le plus rapide

SD 3.5 medium

34 secondes de génération, 22 Go de mémoire. Rapport vitesse/qualité remarquable.

🐢

Le plus lent

FLUX.2-dev 4-bit

397 secondes — paradoxal pour une version quantifiée censée être plus légère.

🧠

Le plus gourmand

FLUX.1-dev : 95 Go

Impossible à faire tourner sur une configuration avec moins de 80-90 Go de VRAM.

🪶

Les plus légers

Z-Image & SD 3.5 medium

22 Go seulement — accessibles sur des configurations bien moins onéreuses.

La quantification 4-bit, pas toujours gagnante

La version FLUX.2-dev-bnb-4bit est une version du modèle FLUX.2-dev compressée en 4 bits (au lieu de 16) pour réduire sa taille en mémoire. Résultat : 34 Go consommés au lieu de 66. Sur le papier, c'est une excellente idée.

Mais en pratique, c'est le modèle le plus lent de ce benchmark : 397 secondes de génération, soit 3,5× plus lent que FLUX.2-klein qui consomme pourtant le même espace. La quantification a un coût computationnel que le GB10 compense difficilement — probablement en raison de la bande passante mémoire limitée du DGX Spark (273 Go/s) qui amplifie ce surcoût.

SD 3.5 large = SD 3.5 large turbo ?

Résultat identique sur les deux : 171 secondes de chargement, 82 secondes de génération, 29 Go de mémoire. Les deux modèles ont vraisemblablement été optimisés pour les mêmes cibles de performance. Le « turbo » se traduit normalement par une réduction du nombre de steps nécessaires pour une bonne qualité — testable avec moins de 50 steps.

Z-Image vs Z-Image-Turbo : même constat

Les deux variantes de Z-Image (de Tongyi-MAI) sont pratiquement identiques en temps : 178 et 179 secondes. La différence entre les deux pourrait se révéler davantage avec un nombre de steps réduit.

Le DGX Spark, une machine faite pour les gros modèles

Ce que ce test illustre bien, c'est que le DGX Spark brille par sa capacité mémoire bien plus que par sa vitesse brute. Des modèles comme FLUX.1-dev (95 Go) ou Qwen-Image (63 Go) sont tout simplement impossibles à faire tourner sur un GPU classique, même haut de gamme. Ici, ils tournent — lentement parfois, mais ils tournent.

Pour de la production à haute cadence, ce n'est pas la bonne machine. Pour de l'exploration, du prototypage, ou tester des modèles énormes localement sans cloud ni abonnement, c'est une proposition unique en son genre.

Ce que j'en retiens

Le DGX Spark est une machine fascinante et un peu hors-norme. Ce n'est pas le GPU le plus rapide sur la génération d'images — un RTX 5090 avec 32 Go de VRAM serait probablement plus véloce sur les modèles qui tiennent en mémoire. Mais c'est une machine qui peut tout faire tourner, localement, sans contrainte de VRAM, avec la stack CUDA complète de NVIDIA.

Pour quelqu'un qui veut explorer l'état de l'art de la génération d'images — ou de LLMs — sans dépendre du cloud et sans être bridé par la mémoire, c'est un outil remarquable.

🏆

Meilleur rapport vitesse/mémoire

SD 3.5 medium — 34s / 22 Go

🎯

Meilleur équilibre

FLUX.1-schnell — 110s / 72 Go

🦾

Plus gros modèle supporté

FLUX.1-dev — 95 Go sur 128 Go

La prochaine étape sera de tester ces mêmes modèles avec des prompts plus complexes et en faisant varier le nombre de steps — pour voir si le « turbo » justifie vraiment son nom avec 10 ou 20 steps au lieu de 50.

Intéressé par un projet similaire ? Je suis disponible pour des missions de machine learning engineering — modélisation, pipelines de données, mise en production. N'hésitez pas à me contacter.