Applications

Claude Code ollama launch claude --model SetneufPT/Gemma4-12B_Q4_64K_16GB-GPU

Codex App ollama launch codex-app --model SetneufPT/Gemma4-12B_Q4_64K_16GB-GPU

OpenClaw ollama launch openclaw --model SetneufPT/Gemma4-12B_Q4_64K_16GB-GPU

Hermes Agent ollama launch hermes --model SetneufPT/Gemma4-12B_Q4_64K_16GB-GPU

Codex ollama launch codex --model SetneufPT/Gemma4-12B_Q4_64K_16GB-GPU

OpenCode ollama launch opencode --model SetneufPT/Gemma4-12B_Q4_64K_16GB-GPU

Gemma 4 - 12B param, Q4, 64K ctx, Local/Offline, 16GB (or 2x 8GB) GPU

Custom Ollama model, fine-tuned from Gemma4 12b from Unsloth, configured for local coding-agent workflows, especially with Open Code or Hermes.

This model is based on a 12B parameter LLM, quantized in Q4, and configured with a large context window for software development tasks. It is intended to provide a practical balance between performance, memory usage, and code-assistance quality on local hardware.

Model details

Type: Text model
Size: 12B parameters
Quantization: Q4
Context target: 64K
Real GPU memory usage: 8,2 GB VRAM
Recommended GPU memory: 16 GB VRAM
Main focus: Coding and agentic development workflows
Tool use: Supported, depending on the client/application
Thinking/reasoning mode: Supported, depending on the client/application

Intended use

This model is designed for:

Agents workflows
Local coding assistants
Code analysis
Debugging support
Refactoring suggestions
Project exploration
Terminal-based programming tasks
Educational demonstrations of AI coding agents

Custom model for coding with agents to use locally with 16gb or 2x8gb GPUs (working fine...)

Applications

Models

Readme

Gemma 4 - 12B param, Q4, 64K ctx, Local/Offline, 16GB (or 2x 8GB) GPU

Model details

Intended use