21 1 month ago

基于昇腾910B纯国产环境,从零训练。

tools thinking 198m
ollama run fzkun/minimind3-ascend-moe

Applications

Claude Code
Claude Code ollama launch claude --model fzkun/minimind3-ascend-moe
Codex App
Codex App ollama launch codex-app --model fzkun/minimind3-ascend-moe
OpenClaw
OpenClaw ollama launch openclaw --model fzkun/minimind3-ascend-moe
Hermes Agent
Hermes Agent ollama launch hermes --model fzkun/minimind3-ascend-moe
Codex
Codex ollama launch codex --model fzkun/minimind3-ascend-moe
OpenCode
OpenCode ollama launch opencode --model fzkun/minimind3-ascend-moe

Models

View all →

Readme

模型说明

本项目提供两个 Ollama 版本:

  • Dense 版本fzkun/minimind3-ascend
  • MoE 版本fzkun/minimind3-ascend-moe

两者均由本地 GGUF 文件转换得到,可直接通过 Ollama 拉取并运行。


模型架构

Dense 版本:fzkun/minimind3-ascend

  • 架构:Dense
  • 导出兼容:Qwen3ForCausalLM
  • 参数规模:约 64M
  • 配置:
    • hidden_size = 768
    • num_hidden_layers = 8

MoE 版本:fzkun/minimind3-ascend-moe

  • 架构:MoE
  • 导出兼容:Qwen3MoeForCausalLM
  • 参数规模:约 198M
  • 配置:
    • hidden_size = 768
    • num_hidden_layers = 8

Benchmark 结果

评测环境: - Ascend 910B - 单卡 npu:0 - batch_size = 16

评测任务: - C-Eval

  • CMMLU

  • ARC-Easy

  • PIQA

  • OpenBookQA

  • HellaSwag

  • Social-IQA

Dense 版本评分

ceval cmmlu arc piqa openbookqa hellaswag siqa
22.66 25.04 28.66 51.85 25.60 28.73 32.60

MoE 版本评分

ceval cmmlu arc piqa openbookqa hellaswag siqa
23.77 24.88 30.30 51.63 26.00 28.58 34.08

说明:


Ollama 用法

Dense 版本

拉取模型:

ollama pull fzkun/minimind3-ascend

启动对话:

ollama run fzkun/minimind3-ascend

MoE 版本

拉取模型:

ollama pull fzkun/minimind3-ascend-moe

启动对话:

ollama run fzkun/minimind3-ascend-moe

查看模型信息

如需查看模型的 Modelfile、参数或 system prompt,可执行:

ollama show fzkun/minimind3-ascend --modelfile
ollama show fzkun/minimind3-ascend-moe --modelfile

补充说明

  • Dense 版本适合更轻量、快速的本地推理场景
  • MoE 版本在部分 benchmark 上表现更强,更适合追求效果的场景
  • 如果需要查看更完整的模型说明、Transformers 版本文件或更多实验记录,建议参考对应的 ModelScope 页面