752 Downloads Updated 4 months ago
Updated 4 months ago
4 months ago
a5f168330005 · 16GB ·
This model requires Ollama v0.6.8 or later
下载并推理:ollama run lsm03624/deepseek-r1:8b-0528-qwen3-fp16 --verbose
说明:该模型是DeepSeek-R1-0528的8B精馏版本,在单卡3090上运行占用16.8G显存左右,生成速度46 tokens/s左右。
我们蒸馏 DeepSeek-R1-0528 的思维链后训练 Qwen3-8B Base,得到了 DeepSeek-R1-0528-Qwen3-8B。该 8B 模型在数学测试 AIME 2024 中仅次于 DeepSeek-R1-0528,超越 Qwen3-8B (+10.0%),与 Qwen3-235B 相当。我们相信,DeepSeek-R1-0528 的思维链对于学术界推理模型的研究和工业界针对小模型的开发都将具有重要意义。