Deutsche Vision-OCR auf Basis von Qwen3.5. Kompakt, lokal, Open Source. Aus deutschem Rechnungs-/Brief-/Formular-Bild → strikt validiertes JSON. 100 % JSON-Validität, 0 % Halluzination auf 200+ echten DE-Rechnungen (anonymisiert).

Details

Updated 3 months ago

3 months ago

abac6f43c758 · 1.0GB ·

model

archqwen35

parameters873M

quantizationQ8_0

1.0GB

license

Apache License Version 2.0, January 2004 http://www.apache.org/licenses/ TERMS AND CONDITIONS FOR US

11kB

system

/no_think Du bist German-OCR-3, eine deutschsprachige OCR- und Dokument-Extraktionsdistribution. Dei

2.8kB

license

210B

params

{ "num_batch": 128, "num_ctx": 16384, "num_predict": 3000, "presence_penalty": 1.5,

271B

German-OCR-3

Deutsche Vision-OCR. Kompakt. Lokal. Open Source. Aus deutschem Rechnungs-/Brief-/Formular-Bild → strikt validiertes JSON.

Quickstart

ollama pull Keyvan/german-ocr-3
ollama run Keyvan/german-ocr-3 "Extrahiere die Rechnung im Bild als JSON." ./rechnung.png

Output (anonymisiertes Beispiel aus Praxistest):

{
  "document_type": "invoice",
  "language": "de",
  "invoice_number": "100137xXXXXX",
  "invoice_date": "2024-01-22",
  "sender": {
    "name": "IONOS SE",
    "address": "Elgendorfer Str. 57, 56410 Montabaur",
    "vat_id": "DE81556XXX"
  },
  "recipient": {
    "name": "Firma e.K.",
    "address": "Muster Straße 32, 80335 München",
    "customer_id": "5835XXX"
  },
  "line_items": [
    {"position": 1, "description": "Mail Business 1 Liz.", "quantity": 1, "unit_price_net": 4.20, "amount_net": 4.20, "vat_rate": 19}
  ],
  "amount_total": 5.00,
  "currency": "EUR"
}

Editions

Modell	Größe	Wann nutzen
`Keyvan/german-ocr-nano`	1.0 GB	Edge, CPU-only, Phone, batch processing
`Keyvan/german-ocr-3` ⭐	2.7 GB	Empfohlen — beste Field-Erkennung, 4-6 GB VRAM

# Empfohlen (2 B)
ollama pull Keyvan/german-ocr-3

# oder für CPU / Edge / Phone (0.8 B)
ollama pull Keyvan/german-ocr-nano

Praxistest (200+ echte deutsche Rechnungen, anonymisiert)

Edition	Valid JSON	Sender korrekt	Halluzination	Latenz
`nano`	84 %	79 %	0 %	6.6 s
default ⭐	100 %	95 %	0 %	5.0 s

Beide lesen das Bild — keine erfundenen „Mustermann GmbH”-Defaults.

Model Description

German-OCR-3 extrahiert strukturierte Daten aus deutschen Geschäftsdokumenten (Rechnungen, Briefe, Formulare, Quittungen, Bescheide) direkt aus dem Bild — als strikt validiertes JSON.

Base Model: Qwen3.5 Small Series · Apache 2.0
Extraktions-Layer: deutscher Anti-Halluzinations-System-Prompt mit striktem JSON-Schema
Decoding: greedy (temperature=0, top_k=1) für reproduzierbaren Output
Datensätze: neuralabs/german-synth-ocr · Aoschu/German_invoices_dataset_for_donut · eigenes synthetisches DE-Rechnungs-Set · IONOS-Praxistest (anonymisiert)
License: Apache 2.0

Training

Methode: Prompt-Edition (system-prompt layering auf vision-fähiger Base)
Sampling: greedy (deterministisch)
Schema-basiert: strikte Extraktion nach schemas/invoice.json, schemas/letter.json, schemas/form.json

Limitations

Optimiert für deutsche Dokumente — Ergebnisse in anderen Sprachen nicht garantiert
Beste Qualität bei klaren, hochauflösenden Scans/Fotos
Handschriftliche Dokumente: nur begrenzt
Bei kritischen Vorgängen (Buchhaltung, Recht): immer Human-in-the-Loop

Credit & Attribution

German-OCR-3 baut auf der hervorragenden Arbeit des Qwen-Teams bei Alibaba Group auf. Die zugrundeliegende Vision-Language-Architektur stammt aus der Qwen 3.5 Small Series, veröffentlicht unter Apache License 2.0.

Qwen 3.5 — https://huggingface.co/Qwen · https://qwen.ai
Qwen2.5-VL Technical Report — arXiv:2502.13923

License

Apache License 2.0.

Citation

@misc{german_ocr_3_2026,
  title  = {German-OCR-3: A compact German document-OCR distribution},
  author = {Hardani, Keyvan},
  year   = {2026},
  url    = {https://github.com/Keyvanhardani/German-OCR}
}

@misc{qwen35_2026,
  title        = {Qwen 3.5 Small Series},
  author       = {{Qwen Team, Alibaba Group}},
  year         = {2026},
  howpublished = {\url{https://huggingface.co/Qwen}},
  note         = {Apache License 2.0}
}

Author

Keyvan Hardani · Website: keyvan.ai · LinkedIn: linkedin.com/in/keyvanhardani · GitHub: @Keyvanhardani