1 10 hours ago

Deutsche Vision-OCR auf Basis von Qwen3.5. Kompakt, lokal, Open Source. Aus deutschem Rechnungs-/Brief-/Formular-Bild → strikt validiertes JSON. 100 % JSON-Validität, 0 % Halluzination auf 200+ echten DE-Rechnungen (anonymisiert).

vision tools thinking
ollama run Keyvan/german-ocr-nano

Details

10 hours ago

abac6f43c758 · 1.0GB ·

qwen35
·
873M
·
Q8_0
Apache License Version 2.0, January 2004 http://www.apache.org/licenses/ TERMS AND CONDITIONS FOR US
/no_think Du bist German-OCR-3, eine deutschsprachige OCR- und Dokument-Extraktionsdistribution. Dei
German-OCR-3-Nano · Copyright 2026 Keyvan Hardani · Apache License 2.0 Project: https://github.com
{ "num_batch": 128, "num_ctx": 16384, "num_predict": 3000, "presence_penalty": 1.5,

Readme

German-OCR-3

German-OCR-3

Deutsche Vision-OCR. Kompakt. Lokal. Open Source. Aus deutschem Rechnungs-/Brief-/Formular-Bild → strikt validiertes JSON.


Quickstart

ollama pull Keyvan/german-ocr-3
ollama run Keyvan/german-ocr-3 "Extrahiere die Rechnung im Bild als JSON." ./rechnung.png

Output (anonymisiertes Beispiel aus Praxistest):

{
  "document_type": "invoice",
  "language": "de",
  "invoice_number": "100137xXXXXX",
  "invoice_date": "2024-01-22",
  "sender": {
    "name": "IONOS SE",
    "address": "Elgendorfer Str. 57, 56410 Montabaur",
    "vat_id": "DE81556XXX"
  },
  "recipient": {
    "name": "Firma e.K.",
    "address": "Muster Straße 32, 80335 München",
    "customer_id": "5835XXX"
  },
  "line_items": [
    {"position": 1, "description": "Mail Business 1 Liz.", "quantity": 1, "unit_price_net": 4.20, "amount_net": 4.20, "vat_rate": 19}
  ],
  "amount_total": 5.00,
  "currency": "EUR"
}

Editions

Modell Größe Wann nutzen
Keyvan/german-ocr-nano 1.0 GB Edge, CPU-only, Phone, batch processing
Keyvan/german-ocr-3 2.7 GB Empfohlen — beste Field-Erkennung, 4-6 GB VRAM
# Empfohlen (2 B)
ollama pull Keyvan/german-ocr-3

# oder für CPU / Edge / Phone (0.8 B)
ollama pull Keyvan/german-ocr-nano

Praxistest (200+ echte deutsche Rechnungen, anonymisiert)

Edition Valid JSON Sender korrekt Halluzination Latenz
nano 84 % 79 % 0 % 6.6 s
default 100 % 95 % 0 % 5.0 s

Beide lesen das Bild — keine erfundenen „Mustermann GmbH”-Defaults.

Model Description

German-OCR-3 extrahiert strukturierte Daten aus deutschen Geschäftsdokumenten (Rechnungen, Briefe, Formulare, Quittungen, Bescheide) direkt aus dem Bild — als strikt validiertes JSON.

  • Base Model: Qwen3.5 Small Series · Apache 2.0
  • Extraktions-Layer: deutscher Anti-Halluzinations-System-Prompt mit striktem JSON-Schema
  • Decoding: greedy (temperature=0, top_k=1) für reproduzierbaren Output
  • Datensätze: neuralabs/german-synth-ocr · Aoschu/German_invoices_dataset_for_donut · eigenes synthetisches DE-Rechnungs-Set · IONOS-Praxistest (anonymisiert)
  • License: Apache 2.0

Training

  • Methode: Prompt-Edition (system-prompt layering auf vision-fähiger Base)
  • Sampling: greedy (deterministisch)
  • Schema-basiert: strikte Extraktion nach schemas/invoice.json, schemas/letter.json, schemas/form.json

Limitations

  • Optimiert für deutsche Dokumente — Ergebnisse in anderen Sprachen nicht garantiert
  • Beste Qualität bei klaren, hochauflösenden Scans/Fotos
  • Handschriftliche Dokumente: nur begrenzt
  • Bei kritischen Vorgängen (Buchhaltung, Recht): immer Human-in-the-Loop

Credit & Attribution

German-OCR-3 baut auf der hervorragenden Arbeit des Qwen-Teams bei Alibaba Group auf. Die zugrundeliegende Vision-Language-Architektur stammt aus der Qwen 3.5 Small Series, veröffentlicht unter Apache License 2.0.

License

Apache License 2.0.

Citation

@misc{german_ocr_3_2026,
  title  = {German-OCR-3: A compact German document-OCR distribution},
  author = {Hardani, Keyvan},
  year   = {2026},
  url    = {https://github.com/Keyvanhardani/German-OCR}
}

@misc{qwen35_2026,
  title        = {Qwen 3.5 Small Series},
  author       = {{Qwen Team, Alibaba Group}},
  year         = {2026},
  howpublished = {\url{https://huggingface.co/Qwen}},
  note         = {Apache License 2.0}
}

Links

Author

Keyvan Hardani · Website: keyvan.ai · LinkedIn: linkedin.com/in/keyvanhardani · GitHub: @Keyvanhardani