1. 前言

在大模型本地化的趋势下,stable-diffusion.cpp 凭借对 GGUF 格式的卓越支持,成为了低显存、高性能部署的首选。特别是配合阿里通义出品的 Z-Image-Turbo 模型,利用单流扩散 Transformer (DiT) 架构,在消费级显卡上即可实现亚秒级的绘图响应。本文将分享如何在最新的开发环境下,为 RTX 4070 Ti Super 打造专属的加速引擎。


2. 环境准备

在开始编译前,请确保系统已备齐以下“三件套”:

  • 开发工具:Visual Studio 2022 或 2026 (需安装 C++ 桌面开发组件)。
  • 计算加速:NVIDIA CUDA Toolkit (推荐 12.x 或 13.x)。
  • 构建工具:CMake (需加入系统环境变量 PATH)。

3. 获取源码与依赖

由于项目依赖于底层张量库 ggml,克隆时必须包含子模块:

git clone --recursive https://github.com/leejet/stable-diffusion.cpp
cd stable-diffusion.cpp

注:若之前已下载但缺少文件夹,请运行 git submodule update --init --recursive


4. 关键:针对 4070 Ti Super 的编译配置

对于使用最新版 VS 2026 的开发者,最大的挑战在于 CUDA 尚未正式支持该编译器版本。我们需要通过特定的标志位跳过版本检查,并锁定 Ada Lovelace 架构的计算能力代码 89

请在项目根目录创建 build 文件夹并进入,然后执行以下单行命令进行配置:

cmake .. -G "Visual Studio 18 2026" -A x64 -DSD_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=89 -DCMAKE_CUDA_FLAGS="-allow-unsupported-compiler"

参数解读:

  • -DSD_CUDA=ON:开启 NVIDIA 显卡加速。
  • -DCMAKE_CUDA_ARCHITECTURES=89:专为 RTX 4070 Ti Super 硬件特性优化。
  • -allow-unsupported-compiler:允许使用尚未被 CUDA 官方认证的新版 VS 编译器。

5. 执行编译

配置成功后(看到 Generating done),执行最后的构建指令,开启多核并行编译:

cmake --build . --config Release -- /m

编译完成后,核心程序 sd.exe 及其依赖的 .dll 文件将出现在 bin\Release 目录下。


6. 实战测试:运行 Z-Image-Turbo

本次部署成功的核心在于放弃了自动加载,转而手动指定三个关键组件。这种“分体式”加载不仅解决了架构识别问题,还通过量化大幅降低了显存压力。

组件清单

  • 主模型 (Diffusion Model): z-image-turbo-Q8_0.gguf
  • 来源: unsloth/Z-Image-Turbo-GGUF
  • 特性: 采用 Q8_0 高精度量化,保留了模型在工业工程细节上的表现力,同时体积仅约 7GB。

  • 文本编码器 (LLM): Qwen3-4B-Instruct-2507-Q4_K_M.gguf
  • 来源: unsloth/Qwen3-4B-Instruct-2507-GGUF
  • 关键点: 必须使用 Qwen 而非 T5。Z-Image 内部张量命名遵循 LLM 规范,只有使用 Qwen 才能对齐 text_encoders.llm 路径,从而解锁强大的中英文指令理解力。

  • 变分自编码器 (VAE): ae-Q8_0.gguf
  • 来源: gaianet/FLUX.1-Fill-dev-GGUF
  • 排雷: 解决了 invalid number of dimensions: 5 > 4 报错。该版本是标准的图像级 VAE,能够精准还原潜空间中的工程细节。

在完成 C++ 源码编译并开启 CUDA 加速后,使用以下显式声明指令进行推理:

.\sd-cli.exe --diffusion-model z-image-turbo-Q8_0.gguf ^
  --llm Qwen3-4B-Instruct-2507-Q4_K_M.gguf ^
  --vae ae-Q8_0.gguf ^
  -p "A professional photographic render of a high-tech gas storage facility, realistic, 8k" ^
  --steps 8 --cfg-scale 1.0 --guidance 0.0 --sampling-method euler -o result.png


7. 性能表现:RTX 4070 Ti SUPER 实测

RTX 4070 Ti SUPER (16GB) 的加持下,这套 GGUF 分体式方案展现了极高的推理效率:

  • 显存占用:总计消耗约 10.5 GB VRAM。16GB 显存应对该方案非常从容,无需开启 CPU Offload 即可保证原生显卡推理速度,同时为后台的工程软件留出了充足的空间。
  • 生成速度:8 步采样仅需 2.01 秒,采样速率稳定在 4.05 it/s 左右。
  • 端到端耗时:依靠高效的 GGUF 读取机制,从输入指令到模型完全加载仅需约 3.37 秒,总生成时间(包含 VAE 解码)在 2.38 秒 左右。

8. 结语

通过将来自 Unsloth 的 Qwen3 文本编码器与 Gaianet 的 ae-GGUF 结合,我们不仅解决了复杂的张量命名冲突,更在端侧实现了工业级的高性能绘图。这种“分体式”部署思路,为后续在低显存环境下运行更大规模的 DiT 模型提供了标准参考。