lsm03624/
deepseek-r1:8b-0528-qwen3-fp16

752 4 months ago

DeepSeek-R1-0528 仍然使用 2024 年 12 月所发布的 DeepSeek V3 Base 模型作为基座,但在后训练过程中投入了更多算力,显著提升了模型的思维深度与推理能力。这个8B精馏版本编程能力都爆表!

thinking

4 months ago

a5f168330005 · 16GB ·

qwen3
·
8.19B
·
F16
MIT License Copyright (c) 2023 DeepSeek Permission is hereby granted, free of charge, to any person
{ "stop": [ "<|begin▁of▁sentence|>", "<|end▁of▁sentence|>",
{{- if .System }}{{ .System }}{{ end }} {{- range $i, $_ := .Messages }} {{- $last := eq (len (slice

Readme

This model requires Ollama v0.6.8 or later

下载并推理:ollama run lsm03624/deepseek-r1:8b-0528-qwen3-fp16 --verbose

说明:该模型是DeepSeek-R1-0528的8B精馏版本,在单卡3090上运行占用16.8G显存左右,生成速度46 tokens/s左右。

我们蒸馏 DeepSeek-R1-0528 的思维链后训练 Qwen3-8B Base,得到了 DeepSeek-R1-0528-Qwen3-8B。该 8B 模型在数学测试 AIME 2024 中仅次于 DeepSeek-R1-0528,超越 Qwen3-8B (+10.0%),与 Qwen3-235B 相当。我们相信,DeepSeek-R1-0528 的思维链对于学术界推理模型的研究和工业界针对小模型的开发都将具有重要意义。 DeepSeek-R1-0528.webp