second_constantine/qwen3-A3B

second_constantine/ qwen3-A3B

220 Downloads Updated 8 months ago

This is the continuation of Qwen3 thinking model (MOE), with improved quality and depth of reasoning. (quantized UD-Q4_K_XL, thinking without switching off)

tools thinking 30b

ollama run second_constantine/qwen3-A3B:30b

curl http://localhost:11434/api/chat \
  -d '{
    "model": "second_constantine/qwen3-A3B:30b",
    "messages": [{"role": "user", "content": "Hello!"}]
  }'

from ollama import chat

response = chat(
    model='second_constantine/qwen3-A3B:30b',
    messages=[{'role': 'user', 'content': 'Hello!'}],
)
print(response.message.content)

import ollama from 'ollama'

const response = await ollama.chat({
  model: 'second_constantine/qwen3-A3B:30b',
  messages: [{role: 'user', content: 'Hello!'}],
})
console.log(response.message.content)

Applications

Claude Code ollama launch claude --model second_constantine/qwen3-A3B:30b

Codex App ollama launch codex-app --model second_constantine/qwen3-A3B:30b

OpenClaw ollama launch openclaw --model second_constantine/qwen3-A3B:30b

Hermes Agent ollama launch hermes --model second_constantine/qwen3-A3B:30b

Codex ollama launch codex --model second_constantine/qwen3-A3B:30b

OpenCode ollama launch opencode --model second_constantine/qwen3-A3B:30b

Models

View all →

Name

3 models

Size / Usage

Context

Input

qwen3-A3B:30b

18GB · 256K context window · Text · 8 months ago

qwen3-A3B:30b

18GB

256K

Text

Readme

Based on the https://huggingface.co/unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF

Feature	Value
vision	false
thinking	true (without switching off)
tools	true

Device	Speed, token/s	Context	VRAM, gb	Versions
RTX 3090 24gb	~98	4096	18	UD-Q4_K_XL, 0.12.2
RTX 3090 24gb	~97	15360	20	UD-Q4_K_XL, 0.12.2
RTX 3090 24gb	~87	4096	17	IQ4_XS, 0.12.3
RTX 3090 24gb	~84	15360	18	IQ4_XS, 0.12.3
M1 Max 32gb	~49	4096	18	UD-Q4_K_XL, 0.12.2
M1 Max 32gb	~46	15360	18	UD-Q4_K_XL, 0.12.2