lsm03624/GLM-Z1-9B-0414-Q8

lsm03624/ GLM-Z1-9B-0414-Q8_0

514 Downloads Updated 1 year ago

GLM-4-Z1-9B-0414 9B小参数模型，其整体表现已处于同尺寸开源模型中的领先水平，此模型使用Ollama v0.6.6版本制作生成，需要Ollama v0.6.6及以上版本才能运行推理。

ollama run lsm03624/GLM-Z1-9B-0414-Q8_0

curl http://localhost:11434/api/chat \
  -d '{
    "model": "lsm03624/GLM-Z1-9B-0414-Q8_0",
    "messages": [{"role": "user", "content": "Hello!"}]
  }'

from ollama import chat

response = chat(
    model='lsm03624/GLM-Z1-9B-0414-Q8_0',
    messages=[{'role': 'user', 'content': 'Hello!'}],
)
print(response.message.content)

import ollama from 'ollama'

const response = await ollama.chat({
  model: 'lsm03624/GLM-Z1-9B-0414-Q8_0',
  messages: [{role: 'user', content: 'Hello!'}],
})
console.log(response.message.content)

Models

View all →

Name

1 model

Size / Usage

Context

Input

GLM-Z1-9B-0414-Q8_0:latest

10.0GB · 32K context window · Text · 1 year ago

GLM-Z1-9B-0414-Q8_0:latest

10.0GB

32K

Text

Readme

This model requires Ollama v0.6.6 or later

下载并推理：ollama run lsm03624/GLM-Z1-9B-0414-Q8_0 --verbose

说明：该模型的Q8_0量化版本在单卡3090上运行占用显存11.6G，生成速度55 tokens/s左右。估计在12G显存的GPU上也可以完全加载运行推理。

GLM-Z1-9B-0414 是一个惊喜。我们沿用上述一系列技术，训练了一个保持开源传统的 9B 小尺寸模型。尽管规模更小，GLM-4-Z1-9B-0414 在数学推理和通用任务中依然展现出极为优秀的能力，其整体表现已处于同尺寸开源模型中的领先水平。特别是在资源受限的场景下，该模型在效率与效果之间实现了出色的平衡，为追求轻量化部署的用户提供了强有力的选择。