256 5 months ago

GLM-4-Z1-9B-0414 9B小参数模型,其整体表现已处于同尺寸开源模型中的领先水平,此模型使用Ollama v0.6.6版本制作生成,需要Ollama v0.6.6及以上版本才能运行推理。

5 months ago

daba77a9076e · 10.0GB ·

glm4
·
9.4B
·
Q8_0
<|User|>{{ .System }} {{ .Prompt }}<|Assistant|>
{ "num_ctx": 4096, "temperature": 0.6 }

Readme

This model requires Ollama v0.6.6 or later

下载并推理:ollama run lsm03624/GLM-Z1-9B-0414-Q8_0 --verbose

说明:该模型的Q8_0量化版本在单卡3090上运行占用显存11.6G,生成速度55 tokens/s左右。估计在12G显存的GPU上也可以完全加载运行推理。

GLM-Z1-9B-0414 是一个惊喜。我们沿用上述一系列技术,训练了一个保持开源传统的 9B 小尺寸模型。尽管规模更小,GLM-4-Z1-9B-0414 在数学推理和通用任务中依然展现出极为优秀的能力,其整体表现已处于同尺寸开源模型中的领先水平。特别是在资源受限的场景下,该模型在效率与效果之间实现了出色的平衡,为追求轻量化部署的用户提供了强有力的选择。