256 Downloads Updated 5 months ago
This model requires Ollama v0.6.6 or later
下载并推理:ollama run lsm03624/GLM-Z1-9B-0414-Q8_0 --verbose
说明:该模型的Q8_0量化版本在单卡3090上运行占用显存11.6G,生成速度55 tokens/s左右。估计在12G显存的GPU上也可以完全加载运行推理。
GLM-Z1-9B-0414 是一个惊喜。我们沿用上述一系列技术,训练了一个保持开源传统的 9B 小尺寸模型。尽管规模更小,GLM-4-Z1-9B-0414 在数学推理和通用任务中依然展现出极为优秀的能力,其整体表现已处于同尺寸开源模型中的领先水平。特别是在资源受限的场景下,该模型在效率与效果之间实现了出色的平衡,为追求轻量化部署的用户提供了强有力的选择。