173 4 months ago

这是unsloth的Q8动态量化版本,精度第一的量化版本!Unsloth Dynamic 2.0 实现了卓越的准确性,并超越了其他领先的量化模型。

tools

Models

View all →

Readme

This model requires Ollama v0.6.6 or later

下载并推理:ollama run lsm03624/Qwen3-32B-128K-UD-Q8_K_XL --verbose

说明:该模型的UD-Q8_K_XL动态量化版本在3090+3080 20G上运行占用38G显存左右,生成速度18 tokens/s左右。

重点:这是unsloth的Q8动态量化版本,精度第一的量化版本!Unsloth Dynamic 2.0 实现了卓越的准确性,并超越了其他领先的量化模型。UD-Q8_K_XL的输出精度远超普通Q8版本!接近FP16版本模型98-99%精度!

Qwen3 是 Qwen 系列最新一代大型语言模型,提供了一整套密集型和专家混合(MoE)模型。基于广泛的训练,Qwen3 在推理、指令执行、代理能力和多语言支持方面实现了突破性进展,具有以下关键特点:

在单个模型中无缝切换思考模式(用于复杂逻辑推理、数学和编程)和非思考模式(用于高效、通用对话),确保在各种场景下都能达到最佳性能。 显著增强了其推理能力,在数学、代码生成和常识逻辑推理方面超过了之前的 QwQ(思考模式)和 Qwen2.5 指令模型(非思考模式)。 更优的人类偏好对齐,在创意写作、角色扮演、多轮对话和指令执行方面表现出色,提供更加自然、吸引人和沉浸式的对话体验。 代理能力方面的专长,能够在思考和非思考模式下与外部工具精确集成,并在复杂的基于代理的任务中达到开源模型中的领先性能。 支持100多种语言和方言,具备强大的多语言指令执行和翻译能力。