lsm03624/deepseek-r1

lsm03624/ deepseek-r1

1,072 Downloads Updated 1 year ago

DeepSeek-R1-0528 仍然使用 2024 年 12 月所发布的 DeepSeek V3 Base 模型作为基座，但在后训练过程中投入了更多算力，显著提升了模型的思维深度与推理能力。这个8B精馏版本编程能力都爆表！

thinking

ollama run lsm03624/deepseek-r1:8b-0528-qwen3-fp16

curl http://localhost:11434/api/chat \
  -d '{
    "model": "lsm03624/deepseek-r1:8b-0528-qwen3-fp16",
    "messages": [{"role": "user", "content": "Hello!"}]
  }'

from ollama import chat

response = chat(
    model='lsm03624/deepseek-r1:8b-0528-qwen3-fp16',
    messages=[{'role': 'user', 'content': 'Hello!'}],
)
print(response.message.content)

import ollama from 'ollama'

const response = await ollama.chat({
  model: 'lsm03624/deepseek-r1:8b-0528-qwen3-fp16',
  messages: [{role: 'user', content: 'Hello!'}],
})
console.log(response.message.content)

Models

View all →

Name

1 model

Size / Usage

Context

Input

deepseek-r1:8b-0528-qwen3-fp16

16GB · 128K context window · Text · 1 year ago

deepseek-r1:8b-0528-qwen3-fp16

16GB

128K

Text

Readme

This model requires Ollama v0.6.8 or later

下载并推理：ollama run lsm03624/deepseek-r1:8b-0528-qwen3-fp16 --verbose

说明：该模型是DeepSeek-R1-0528的8B精馏版本，在单卡3090上运行占用16.8G显存左右，生成速度46 tokens/s左右。

我们蒸馏 DeepSeek-R1-0528 的思维链后训练 Qwen3-8B Base，得到了 DeepSeek-R1-0528-Qwen3-8B。该 8B 模型在数学测试 AIME 2024 中仅次于 DeepSeek-R1-0528，超越 Qwen3-8B （+10.0%），与 Qwen3-235B 相当。我们相信，DeepSeek-R1-0528 的思维链对于学术界推理模型的研究和工业界针对小模型的开发都将具有重要意义。