lsm03624/Qwen3-32B-128K-UD-Q8_K

这是unsloth的Q8动态量化版本，精度第一的量化版本！Unsloth Dynamic 2.0 实现了卓越的准确性，并超越了其他领先的量化模型。

Applications

Claude Code ollama launch claude --model lsm03624/Qwen3-32B-128K-UD-Q8_K_XL

Codex App ollama launch codex-app --model lsm03624/Qwen3-32B-128K-UD-Q8_K_XL

OpenClaw ollama launch openclaw --model lsm03624/Qwen3-32B-128K-UD-Q8_K_XL

Hermes Agent ollama launch hermes --model lsm03624/Qwen3-32B-128K-UD-Q8_K_XL

Codex ollama launch codex --model lsm03624/Qwen3-32B-128K-UD-Q8_K_XL

OpenCode ollama launch opencode --model lsm03624/Qwen3-32B-128K-UD-Q8_K_XL

This model requires Ollama v0.6.6 or later

下载并推理：ollama run lsm03624/Qwen3-32B-128K-UD-Q8_K_XL --verbose

说明：该模型的UD-Q8_K_XL动态量化版本在3090+3080 20G上运行占用38G显存左右，生成速度18 tokens/s左右。

重点：这是unsloth的Q8动态量化版本，精度第一的量化版本！Unsloth Dynamic 2.0 实现了卓越的准确性，并超越了其他领先的量化模型。UD-Q8_K_XL的输出精度远超普通Q8版本！接近FP16版本模型98-99%精度！

Qwen3 是 Qwen 系列最新一代大型语言模型，提供了一整套密集型和专家混合（MoE）模型。基于广泛的训练，Qwen3 在推理、指令执行、代理能力和多语言支持方面实现了突破性进展，具有以下关键特点：

在单个模型中无缝切换思考模式（用于复杂逻辑推理、数学和编程）和非思考模式（用于高效、通用对话），确保在各种场景下都能达到最佳性能。显著增强了其推理能力，在数学、代码生成和常识逻辑推理方面超过了之前的 QwQ（思考模式）和 Qwen2.5 指令模型（非思考模式）。更优的人类偏好对齐，在创意写作、角色扮演、多轮对话和指令执行方面表现出色，提供更加自然、吸引人和沉浸式的对话体验。代理能力方面的专长，能够在思考和非思考模式下与外部工具精确集成，并在复杂的基于代理的任务中达到开源模型中的领先性能。支持100多种语言和方言，具备强大的多语言指令执行和翻译能力。

这是unsloth的Q8动态量化版本，精度第一的量化版本！Unsloth Dynamic 2.0 实现了卓越的准确性，并超越了其他领先的量化模型。

Applications

Models

Readme