yanjia/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-APEX-I-Quality

这是一个面向 Ollama 的打包版本，对应 Hugging Face 项目 mudler/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-APEX-GGUF中的 I-Quality APEX GGUF 模型。

包含内容主模型：Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-APEX-I-Quality.gguf 运行方式：Ollama 目标命令：ollama run yanjia/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-APEX-I-Quality 打包策略：为了保证可运行性，当前发布为文本版

APEX 量化是什么 APEX 的全称是 Adaptive Precision for EXpert Models，是一种面向 MoE 模型的分层量化策略。它的核心不是统一精度，而是根据张量重要性和层位置做差异化量化：首尾边缘层保持更高精度。中间层 routed experts 采用更激进压缩。Attention 与 shared experts 等敏感部分保留更高精度。I- 前缀版本使用 imatrix 校准，覆盖聊天、代码、推理、工具调用和参考文本等多种数据分布。

根据上游 Hugging Face 模型卡，I-Quality 的定位是使用 imatrix 的最高质量档。

上游来源 APEX GGUF 量化发布页： mudler/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-APEX-GGUF 量化页引用的蒸馏来源模型： lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled APEX 项目： mudler/apex-quant LocalAI： mudler/LocalAI 基本信息架构：qwen35moe 总参数量：约 35B 每 token 激活参数量：约 3B 层数：40 Experts：256 个 routed experts，加 shared experts 上游 GGUF 发布页提供了 mmproj.gguf，但这个 Ollama 包为了保证 ollama run 稳定可用，当前有意按文本模型发布。使用方式 ollama run yanjia/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-APEX-I-Quality 这个包当前按文本模型发布。虽然上游提供了 mmproj.gguf，但在当前 Ollama 上，把外置 mmproj 叠加到导入的 qwen35moe GGUF 模型上还不够稳定，不适合直接公开成默认包。

署名与许可这个仓库只是把上游 GGUF 工件封装成 Ollama 可直接运行的模型。主要归功于： mudler：APEX GGUF 发布 lordx64：推理蒸馏模型 mradermacher：上游卡片中注明的 mmproj.gguf LocalAI / apex-quant：APEX 量化方案上游 Hugging Face 模型卡声明许可为 Apache-2.0。

APEX model from Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled

Models

Readme