dcostenco/ prism-coder

161 Downloads Updated 3 weeks ago

Local-first AI tool router. 4 sizes (2B/4B/14B/32B). 100% routing accuracy (BFCL, 115 cases x 3 seeds). 97% of traffic stays local.

vision tools thinking 2b 4b 9b 14b 27b 32b

ollama run dcostenco/prism-coder:2b

curl http://localhost:11434/api/chat \
  -d '{
    "model": "dcostenco/prism-coder:2b",
    "messages": [{"role": "user", "content": "Hello!"}]
  }'

from ollama import chat

response = chat(
    model='dcostenco/prism-coder:2b',
    messages=[{'role': 'user', 'content': 'Hello!'}],
)
print(response.message.content)

import ollama from 'ollama'

const response = await ollama.chat({
  model: 'dcostenco/prism-coder:2b',
  messages: [{role: 'user', content: 'Hello!'}],
})
console.log(response.message.content)

Applications

Claude Code

Claude Code ollama launch claude --model dcostenco/prism-coder:2b

Codex App

Codex App ollama launch codex-app --model dcostenco/prism-coder:2b

OpenClaw

OpenClaw ollama launch openclaw --model dcostenco/prism-coder:2b

Hermes Agent

Hermes Agent ollama launch hermes --model dcostenco/prism-coder:2b

Codex

Codex ollama launch codex --model dcostenco/prism-coder:2b

OpenCode

OpenCode ollama launch opencode --model dcostenco/prism-coder:2b

Models

Name

6 models

Size / Usage

Context

Input

prism-coder:2b

2.3GB · 256K context window · Text · 4 weeks ago

prism-coder:2b

2.3GB

256K

Text

prism-coder:4b

3.4GB · 256K context window · Text, Image · 4 weeks ago

prism-coder:4b

3.4GB

256K

Text, Image

prism-coder:9b

5.8GB · 256K context window · Text · 4 weeks ago

prism-coder:9b

5.8GB

256K

Text

prism-coder:14b

9.0GB · 40K context window · Text · 4 weeks ago

prism-coder:14b

9.0GB

40K

Text

prism-coder:27b

17GB · 256K context window · Text · 3 weeks ago

prism-coder:27b

17GB

256K

Text

prism-coder:32b

20GB · 40K context window · Text · 4 weeks ago

prism-coder:32b

20GB

40K

Text

Readme

Prism Coder — Local-First AI Agent Tool Router

Prompt-engineered Qwen3.5 + fine-tuned Qwen3 for AI agent tool routing. 97% of queries handled locally — no cloud needed.

99.1–100% routing accuracy across all model sizes (BFCL eval, 115 cases × 3 seeds).

Models

Model	Size	BFCL	Use when
`prism-coder:2b`	2.3 GB	99.1%	iPhone / mobile first gate (Qwen3.5-4B Q3_K_M)
`prism-coder:4b`	3.4 GB	100%	Verifier + 8 GB+ devices (Qwen3.5-4B Q4_K_M)
`prism-coder:14b`	9.0 GB	100%	Default — Mac router
`prism-coder:32b`	20 GB	100%	Complex tasks

Quick Start

# Recommended default
ollama run dcostenco/prism-coder:14b

# iPhone / mobile (2.3 GB, 99.1%)
ollama pull dcostenco/prism-coder:2b

# Full quality verifier (3.4 GB, 100%)
ollama pull dcostenco/prism-coder:4b

Cascade Architecture

2B on-device   ✅  iPhone first gate (99.1%)
4B verifier    ✅  grounding checks, 8 GB+ devices (100%)
14B local      ✅  Mac default router (100%)
32B local      ✅  complex tasks (100%)
Claude Opus    🌩️  ~1% — last resort

97% of traffic never touches the cloud.

Training

2B/4B: Stock Qwen3.5-4B with system prompt engineering (no fine-tuning). Q3_K_M and Q4_K_M quantizations.
14B/32B: Fine-tuned from Qwen3 via MLX LoRA + direct safetensors merge.
Eval gate: 99.1–100% on BFCL (115 cases × 3 seeds) before deploy.

Full Weights

HuggingFace: huggingface.co/dcostenco (public GGUF)
Both Q3_K_M (2.3 GB) and Q4_K_M (3.4 GB) available for the 4B model

Built For

Prism AAC — communication app for non-verbal users
Prism Coder — AI dev assistant with persistent memory

# Prism Coder — Local-First AI Agent Tool Router

Prompt-engineered Qwen3.5 + fine-tuned Qwen3 for AI agent tool routing. 97% of queries handled locally — no cloud needed.

**99.1–100% routing accuracy** across all model sizes (BFCL eval, 115 cases × 3 seeds).

## Models

| Model | Size | BFCL | Use when |
|-------|------|------|----------|
| `prism-coder:2b` | 2.3 GB | 99.1% | iPhone / mobile first gate (Qwen3.5-4B Q3_K_M) |
| `prism-coder:4b` | 3.4 GB | 100% | Verifier + 8 GB+ devices (Qwen3.5-4B Q4_K_M) |
| `prism-coder:14b` | 9.0 GB | 100% | Default — Mac router |
| `prism-coder:32b` | 20 GB | 100% | Complex tasks |

## Quick Start

```bash
# Recommended default
ollama run dcostenco/prism-coder:14b

# iPhone / mobile (2.3 GB, 99.1%)
ollama pull dcostenco/prism-coder:2b

# Full quality verifier (3.4 GB, 100%)
ollama pull dcostenco/prism-coder:4b
```

## Cascade Architecture

```
2B on-device   ✅  iPhone first gate (99.1%)
4B verifier    ✅  grounding checks, 8 GB+ devices (100%)
14B local      ✅  Mac default router (100%)
32B local      ✅  complex tasks (100%)
Claude Opus    🌩️  ~1% — last resort
```

97% of traffic never touches the cloud.

## Training

- **2B/4B**: Stock Qwen3.5-4B with system prompt engineering (no fine-tuning). Q3_K_M and Q4_K_M quantizations.
- **14B/32B**: Fine-tuned from Qwen3 via MLX LoRA + direct safetensors merge.
- **Eval gate**: 99.1–100% on BFCL (115 cases × 3 seeds) before deploy.

## Full Weights

- HuggingFace: [huggingface.co/dcostenco](https://huggingface.co/dcostenco) (public GGUF)
- Both Q3_K_M (2.3 GB) and Q4_K_M (3.4 GB) available for the 4B model

## Built For

- [Prism AAC](https://github.com/dcostenco/prism-aac) — communication app for non-verbal users
- [Prism Coder](https://github.com/dcostenco/prism-coder) — AI dev assistant with persistent memory

Paste, drop or click to upload images (.png, .jpeg, .jpg, .svg, .gif)