German-OCR-Turbo ist ein fine-tuned Vision-Language-Modell basierend auf Qwen3-VL-2B, optimiert für die präzise Texterkennung aus deutschen Rechnungen, Formularen und Geschäftsdokumenten. Das Modell extrahiert strukturierte Daten im Markdown-Format.

German-OCR Turbo

Ultraschnelle deutsche Texterkennung mit 100% Genauigkeit

Das schnellste OCR-Modell fuer deutsche Dokumente - 3x schneller als DeepSeek-OCR!

Highlights

Nur 1.9GB - laeuft auf jeder Consumer-GPU
~5 Sekunden pro Dokument (GPU) / ~15s (CPU)
100% Accuracy bei deutschen Rechnungen
Multi-Format Output: Markdown, JSON, HTML, TXT
Speziell optimiert fuer deutsche Dokumente

Benchmark

Getestet auf RTX 4060 8GB mit 5x Warm-Runs:

Modell	Groesse	Zeit	Genauigkeit
German-OCR Turbo	1.9GB	5.0s	100%
German-OCR v1	3.2GB	5.5s	75%
DeepSeek-OCR	6.7GB	15.8s	70%
MiniCPM-V	5.5GB	8.9s	67%
LLaVA 7B	4.7GB	12.9s	45%

Vollstaendige Benchmark-Ergebnisse

Installation

ollama pull Keyvan/german-ocr-turbo

Verwendung

Einfache OCR

ollama run Keyvan/german-ocr-turbo "Extrahiere den Text aus diesem Dokument" --image rechnung.png

Python API

from german_ocr import GermanOCR

# Turbo-Modell (Standard)
ocr = GermanOCR(model_name="german-ocr-turbo")

# Text extrahieren
text = ocr.extract("rechnung.png")
print(text)

# Verschiedene Ausgabeformate
text_md = ocr.extract("doc.png", output_format="markdown")
text_json = ocr.extract("doc.png", output_format="json")
text_html = ocr.extract("doc.png", output_format="html")

pip install german-ocr

Unterstuetzte Dokumente

Rechnungen / Invoices
Vertraege / Contracts
Ausweise & Reisepaesse
Steuerbescheide
Formulare
Infobroschueren
Alle deutschen Textdokumente

Ausgabeformate

Markdown (Standard)

Extrahiere den Text im Markdown-Format

JSON

Extrahiere den Text als JSON

HTML

Extrahiere den Text als HTML

Reiner Text

Extrahiere den Text als reinen Text

Technische Details

Basis-Modell: Qwen3-VL-2B-Instruct (Alibaba Cloud)
Context Window: 256K Tokens (erweiterbar auf 1M)
Parameter:
- temperature: 0.1 (praezise OCR)
- repeat_penalty: 1.5 (keine Wiederholungen)
- num_ctx: 4096
- num_predict: 2048

Systemanforderungen

GPU: 4GB+ VRAM (empfohlen)
CPU: Funktioniert, aber langsamer (~15s)
RAM: 8GB+ empfohlen
Ollama: v0.1.0+

Lizenz

Apache 2.0

Autor

Keyvan Hardani - keyvan.ai

Made with love in Germany