261 1 week ago

APEX model from Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled

ollama run yanjia/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-APEX-I-Balanced

Details

1 week ago

0422c1084fc1 · 26GB ·

qwen35moe
·
34.7B
·
Q5_K_M
You are Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-APEX-I-Balanced, a capable reasoning ass
Apache License Version 2.0, January 2004 http://www.apache.org/licenses/
{ "num_ctx": 8192, "repeat_penalty": 1.05, "temperature": 0.7 }

Readme

这是一个面向 Ollama 的打包版本,对应 Hugging Face 项目: mudler/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-APEX-GGUF中的 I-Balanced APEX GGUF 模型。

包含内容 主模型:Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-APEX-I-Balanced.gguf 运行方式:Ollama 目标命令:ollama run yanjia/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-APEX-I-Balanced 打包策略:为了保证可运行性,当前发布为文本版

APEX 量化是什么 APEX 的全称是 Adaptive Precision for EXpert Models,是一种专门面向 MoE 模型的量化策略。它不是把整模型统一量化到同一种精度,而是按张量角色和层位置分配不同精度:首尾边缘层保留更高精度。中间层的 routed experts 压缩更激进。Attention、shared experts、SSM/Mamba 等关键部分保留更高精度。I- 前缀版本使用 imatrix 校准,校准集包含聊天、代码、推理、工具调用、agent 轨迹和 Wikipedia 风格文本。

根据上游 Hugging Face 模型卡,I-Balanced 的定位是 综合质量 / 体积比最优。

上游来源 APEX GGUF 量化发布页: mudler/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-APEX-GGUF 量化页引用的蒸馏来源模型: lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled APEX 项目: mudler/apex-quant LocalAI: mudler/LocalAI 基本信息 架构:qwen35moe 总参数量:约 35B 每 token 激活参数量:约 3B 层数:40 Experts:256 个 routed experts,加 shared experts 上游 GGUF 发布页提供了 mmproj.gguf,但这个 Ollama 包为了保证 ollama run 稳定可用,当前有意按文本模型发布。

使用方式 ollama run yanjia/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-APEX-I-Balanced 这个包当前按文本模型发布。虽然上游提供了 mmproj.gguf,但在当前 Ollama 上,把外置 mmproj 叠加到导入的 qwen35moe GGUF 模型上还不够稳定,不适合直接公开成默认包。

署名与许可 这个仓库只是把上游 GGUF 工件封装成 Ollama 可直接运行的模型。主要归功于: mudler:APEX GGUF 发布 lordx64:推理蒸馏模型 mradermacher:上游卡片中注明的 mmproj.gguf LocalAI / apex-quant:APEX 量化方案 上游 Hugging Face 模型卡声明许可为 Apache-2.0。