706 Downloads Updated 1 week ago
ollama run yanjia/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-APEX-I-Quality
这是一个面向 Ollama 的打包版本,对应 Hugging Face 项目 mudler/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-APEX-GGUF中的 I-Quality APEX GGUF 模型。
包含内容 主模型:Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-APEX-I-Quality.gguf 运行方式:Ollama 目标命令:ollama run yanjia/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-APEX-I-Quality 打包策略:为了保证可运行性,当前发布为文本版
APEX 量化是什么 APEX 的全称是 Adaptive Precision for EXpert Models,是一种面向 MoE 模型的分层量化策略。它的核心不是统一精度,而是根据张量重要性和层位置做差异化量化:首尾边缘层保持更高精度。 中间层 routed experts 采用更激进压缩。Attention 与 shared experts 等敏感部分保留更高精度。I- 前缀版本使用 imatrix 校准,覆盖聊天、代码、推理、工具调用和参考文本等多种数据分布。
根据上游 Hugging Face 模型卡,I-Quality 的定位是 使用 imatrix 的最高质量档。
上游来源 APEX GGUF 量化发布页: mudler/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-APEX-GGUF 量化页引用的蒸馏来源模型: lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled APEX 项目: mudler/apex-quant LocalAI: mudler/LocalAI 基本信息 架构:qwen35moe 总参数量:约 35B 每 token 激活参数量:约 3B 层数:40 Experts:256 个 routed experts,加 shared experts 上游 GGUF 发布页提供了 mmproj.gguf,但这个 Ollama 包为了保证 ollama run 稳定可用,当前有意按文本模型发布。 使用方式 ollama run yanjia/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-APEX-I-Quality 这个包当前按文本模型发布。虽然上游提供了 mmproj.gguf,但在当前 Ollama 上,把外置 mmproj 叠加到导入的 qwen35moe GGUF 模型上还不够稳定,不适合直接公开成默认包。
署名与许可 这个仓库只是把上游 GGUF 工件封装成 Ollama 可直接运行的模型。主要归功于: mudler:APEX GGUF 发布 lordx64:推理蒸馏模型 mradermacher:上游卡片中注明的 mmproj.gguf LocalAI / apex-quant:APEX 量化方案 上游 Hugging Face 模型卡声明许可为 Apache-2.0。