aravhawk/gemma4

aravhawk/ gemma4

542 Downloads Updated 1 week ago

Gemma 4 26B Optimized for 16GB VRAM via Q3 Quantization

tools thinking 26b

ollama run aravhawk/gemma4:26b

curl http://localhost:11434/api/chat \
  -d '{
    "model": "aravhawk/gemma4:26b",
    "messages": [{"role": "user", "content": "Hello!"}]
  }'

from ollama import chat

response = chat(
    model='aravhawk/gemma4:26b',
    messages=[{'role': 'user', 'content': 'Hello!'}],
)
print(response.message.content)

import ollama from 'ollama'

const response = await ollama.chat({
  model: 'aravhawk/gemma4:26b',
  messages: [{role: 'user', content: 'Hello!'}],
})
console.log(response.message.content)

Applications

Claude Code ollama launch claude --model aravhawk/gemma4:26b

Codex ollama launch codex --model aravhawk/gemma4:26b

OpenCode ollama launch opencode --model aravhawk/gemma4:26b

OpenClaw ollama launch openclaw --model aravhawk/gemma4:26b

Hermes Agent ollama launch hermes --model aravhawk/gemma4:26b

Models

View all →

Name

2 models

Size

Context

Input

gemma4:26b

13GB · 256K context window · Text · 1 week ago

gemma4:26b

13GB

256K

Text

Readme

Gemma 4 26B (A4B) with an aggressive 3-bit K-quant applied

While Gemma 4 is relatively quant-resistant, expect decent quality loss compared to Q4/Q8 or FP16.
This model is quite fast due to a mixture-of-experts (MoE) architecture, achieving 132 tok/sec on an RTX 5070 Ti with context set to 100,000.

Credit to the Unsloth team for the GGUF behind this model

https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF