A Sinhala-adapted version of Google’s Gemma 3 4B, continually pre-trained on 10.7M Sinhala sentences with a custom 16k vocabulary using 4-bit LoRA.

ollama run Tharusha_Dilhara_Jayadeera/singemma

curl http://localhost:11434/api/chat \
  -d '{
    "model": "Tharusha_Dilhara_Jayadeera/singemma",
    "messages": [{"role": "user", "content": "Hello!"}]
  }'

from ollama import chat

response = chat(
    model='Tharusha_Dilhara_Jayadeera/singemma',
    messages=[{'role': 'user', 'content': 'Hello!'}],
)
print(response.message.content)

import ollama from 'ollama'

const response = await ollama.chat({
  model: 'Tharusha_Dilhara_Jayadeera/singemma',
  messages: [{role: 'user', content: 'Hello!'}],
})
console.log(response.message.content)

Details

Updated 9 months ago

9 months ago

4afed2af5ab5 · 2.5GB ·

model

archgemma3

parameters3.88B

quantizationQ4_K_M

2.5GB

system

ඔබ සිංහල භාෂාවෙන් චතුර ලෙස පිළිතුරු ස�

191B

params

{ "stop": [ "<start_of_turn>", "<end_of_turn>" ] }

65B

template

<start_of_turn>user {{ .Prompt }}<end_of_turn> <start_of_turn>model

71B

Readme

SinGemma-Sinhala-4B-v1

SinGemma-Sinhala-4B-v1 is a Sinhala-language causal LLM built on Google’s Gemma 3-4B base, pretrained further on Sinhala data to improve fluency, coherence, and usability in Sinhala NLP tasks.

Model Details

Feature	Description
Model Name	SinGemma-Sinhala-4B-v1
Base Architecture	Google Gemma 3, approx. 4B parameters
Language	Sinhala
Tokenizer / Vocabulary	Extended ~16,000 token vocabulary optimized for Sinhala
Precision / Format	— uses `safetensors`; supports BF16 or quantized formats (if converted)

Intended Use Cases

Conversational agents / chatbots in Sinhala
Text generation: stories, essays, summaries in Sinhala
Completion or assistance in Sinhala writing
Research in Sinhala natural language processing