lsm03624/deepseek-r1:8b-0528-qwen3-fp16

lsm03624/

deepseek-r1:8b-0528-qwen3-fp16

797 Downloads Updated 5 months ago

DeepSeek-R1-0528 仍然使用 2024 年 12 月所发布的 DeepSeek V3 Base 模型作为基座，但在后训练过程中投入了更多算力，显著提升了模型的思维深度与推理能力。这个8B精馏版本编程能力都爆表！

thinking

Updated 5 months ago

5 months ago

a5f168330005 · 16GB ·

model

archqwen3

parameters8.19B

quantizationF16

16GB

license

1.1kB

params

{ "stop": [ "<｜begin▁of▁sentence｜>", "<｜end▁of▁sentence｜>",

179B

template

{{- if .System }}{{ .System }}{{ end }} {{- range $i, $_ := .Messages }} {{- $last := eq (len (slice

556B

Readme

This model requires Ollama v0.6.8 or later

下载并推理：ollama run lsm03624/deepseek-r1:8b-0528-qwen3-fp16 --verbose

说明：该模型是DeepSeek-R1-0528的8B精馏版本，在单卡3090上运行占用16.8G显存左右，生成速度46 tokens/s左右。

我们蒸馏 DeepSeek-R1-0528 的思维链后训练 Qwen3-8B Base，得到了 DeepSeek-R1-0528-Qwen3-8B。该 8B 模型在数学测试 AIME 2024 中仅次于 DeepSeek-R1-0528，超越 Qwen3-8B （+10.0%），与 Qwen3-235B 相当。我们相信，DeepSeek-R1-0528 的思维链对于学术界推理模型的研究和工业界针对小模型的开发都将具有重要意义。