Bu model, Türkçe odaklı çok uzun bağlam (8192 token) sentence embedding üretmek için eğitilmiş bir SentenceTransformer modelidir. 768 boyutlu normalize vektör uzayına projeksiyon yapar.

Details

Updated 2 weeks ago

2 weeks ago

450bcdc547f0 · 411MB ·

model

archgemma-embedding

parameters202M

quantizationBF16

411MB

template

{{- range $i, $_ := .Messages }} {{- $last := eq (len (slice $.Messages $i)) 1 }} {{- if eq .Role "u

363B

params

{ "stop": [ "<end_of_turn>" ] }

37B

embeddingmagibu-200m

Bu model, Türkçe odaklı çok uzun bağlam (8192 token) sentence embedding üretmek için eğitilmiş bir SentenceTransformer modelidir. 768 boyutlu normalize vektör uzayına projeksiyon yapar. 152M versiyonunun başarısı üzerine kurgulanmış olup, 200M parametre boyutu ve artırılmış bağlam uzunluğu ile daha derinlemesine metin temsili sağlar.

Özellikle şu görevler için uygundur:

Uzun Doküman Temsili (Long Context Retrieval)
Semantik benzerlik (STS)
Semantik arama / retrieval
Kümeleme
Sınıflandırma (embedding tabanlı)

Model Performansı

1) Detaylı MTEB Sonuçları (19 Görev)

Modelin TR-MTEB kapsamında değerlendirildiği 19 görevin detaylı sonuçları aşağıdadır:

Kategori	Görev (Task)	Skor
STS	STSbTR	77.5
NLI	SnliTr	60.8
	XNLI	76.0
Retrieval	SquadTRRetrieval	62.3
	MSMarcoTRRetrieval	57.4
	TQuadRetrieval	79.5
Sınıflandırma	THYSentimentClassification	59.5
	TSTimelineNewsCategoryClassification	58.7
	Turkish75NewsClassification	90.7
	TurkishIronyClassification	52.6
	TurkishMovieSentimentClassification	71.9
	TurkishNewsCategoryClassification	88.8
	TurkishOffensiveLanguageClassification	63.9
	TurkishProductSentimentClassification	60.9
Kümeleme	TurkishAbstractCorpusClustering	58.9
	TurkishColumnWritingClustering	63.6
İki-Dilli	WMT16BitextMining	97.1
Diğer	ArguAnaTR	45.3
	NFCorpusTR	10.7
GENEL	Ortalama	69.5

2) Versiyon Karşılaştırması (200m vs 152m)

Önceki versiyon olan embeddingmagibu-152m ile ortak 15 görevdeki karşılaştırma sonuçları:

Görev	embeddingmagibu-200m	embeddingmagibu-152m	Fark
ORTALAMA	69.5	67.0	+2.5 🚀
STSbTR	77.5	75.1	+2.4
SnliTr	60.8	55.4	+5.4
SquadTRRetrieval	62.3	68.7	-6.4
THYSentimentClassification	59.5	51.0	+8.5
TSTimelineNewsCategoryClassification	58.7	60.8	-2.1
Turkish75NewsClassification	90.7	92.7	-2.0
TurkishAbstractCorpusClustering	58.9	61.8	-2.9
TurkishColumnWritingClustering	63.6	61.8	+1.8
TurkishIronyClassification	52.6	48.4	+4.2
TurkishMovieSentimentClassification	71.9	67.3	+4.6
TurkishNewsCategoryClassification	88.8	90.8	-2.0
TurkishOffensiveLanguageClassification	63.9	59.6	+4.3
TurkishProductSentimentClassification	60.9	59.1	+1.8
WMT16BitextMining	97.1	91.9	+5.2
XNLI	76.0	60.8	+15.2

Model, sıfırdan rastgele başlatılmak yerine iki aşamalı özel bir yaklaşımla geliştirilmiştir:

Tokenizer yeniden eğitimi (Türkçe için 128K vocab BPE)
Transformer klonlama (teacher model ağırlıklarını kopyala + yeni vocab için embedding tablosunu hesapla)
Embedding distillation (teacher embedding’lerini önceden hesapla, student’ı yaklaştır)

Bu sayede, büyük modellerle yarışan kaliteyi hedeflerken parametre sayısı yaklaşık 200M seviyesinde tutulmuştur.

Model Mimarisi

Bu model SentenceTransformers formatında aşağıdaki boru hattını kullanır. max_seq_length değeri 8192‘ye çıkarılmıştır:

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: Gemma3TextModel
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Dense({'in_features': 768, 'out_features': 3072, 'bias': False, 'activation_function': 'torch.nn.modules.linear.Identity'})
  (3): Dense({'in_features': 3072, 'out_features': 768, 'bias': False, 'activation_function': 'torch.nn.modules.linear.Identity'})
  (4): Normalize()
)

Eğitim Süreci ve Oluşturulma Detayları

Bu bölüm, modelin “nasıl üretildiğini” teknik detaylarıyla anlatır.

1) Tokenizer: 128K vocab BPE (SentencePiece)

Tokenizer türü: BPE
Vocab: 128K => 131072 token
Eğitim kütüphanesi: SentencePiece
Tokenizer eğitim verisi: ytu-ce-cosmos/Cosmos-Turkish-Corpus-v1.0
- Dataset kartına göre: Türkçe pretrain korpusu, ~15B token.

Amaç: Türkçe metinler için daha uygun alt-parça dağılımı elde ederek vocab’ı küçültmek ve embedding tablosu parametrelerini optimize etmektir.

2) Model Klonlama: `transformer-cloner`

Sıfırdan model başlatmak yerine, teacher modelin (EmbeddingGemma) ağırlıklarını koruyarak yeni tokenizer’a adapte edebilmek için transformer-cloner kütüphanesi kullanılmıştır.

Yöntem: Teacher modeldeki transformer katmanları korunur. Yeni tokenizer’daki her token için teacher tarafında bir token-id eşlemesi oluşturulur ve embeddingler hesaplanarak (MEAN stratejisi ile) aktarılır.

3) Distillation (Bilgi Damıtma)

Student model, teacher’ın embedding uzayına yaklaşacak şekilde eğitilmiştir. Teacher embedding’leri önceden hesaplanmış ve distil-trainer kullanılarak student model optimize edilmiştir.

Evaluation (Değerlendirme)

Modelin performansı STSbTR (Semantic Textual Similarity Benchmark - Turkish) üzerinde ölçülmüştür. TR-MTEB (Massive Text Embedding Benchmark) testleri devam etmektedir ve tamamlandığında eklenecektir.

1) STSbTR (figenfikri/stsb_tr) Sonuçları

Aşağıdaki tablo, modelin test setindeki performansını ve diğer modellerle karşılaştırmasını göstermektedir.

Test Metriği:

Samples: 5749
Inference Time: 37.05s

Model	Pearson	Spearman
intfloat/multilingual-e5-large-instruct	0.8275	0.8129
trmteb/turkish-embedding-model-fine-tuned	0.8215	0.8061
embeddingmagibu-200m (Bu Model)	0.8199	0.7980
ytu-ce-cosmos/turkish-e5-large	0.8090	0.7906
sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2	0.7884	0.7659
google/embeddinggemma-300m (Teacher)	0.7391	0.7194

Not: Bu sonuçlar modelin özellikle semantik benzerlik konusunda teacher modelini (EmbeddingGemma-300m) belirgin şekilde geçtiğini ve lider tablosundaki (SOTA) modellere çok yaklaştığını göstermektedir.

2) TR-MTEB Sonuçları

TR-MTEB (Türkçe Gömme Kıyaslaması) sonuçlarına göre modelimiz, 768 boyutlu modeller arasında genel ortalamada 69.5 puan ile üst sıralarda yer almaktadır. Özellikle STS (77.5) ve Retrieval (76.0) görevlerinde güçlü performans sergilediği görülmektedir.

Aşağıdaki tablo, MTEB lider tablosundaki ilgili modellerin genel ve kategori bazlı skorlarını göstermektedir:

Rank	Model	Avg	STS	NLI	Erişim (Ret.)	Sınıflandırma	Kümeleme	İki-Dilli	Diğer
1	intfloat/multilingual-e5-large-instruct	72.8	81.2	52.5	72.7	73.0	51.3	56.8	84.7
2	intfloat/multilingual-e5-large	72.3	81.2	55.8	72.6	80.1	61.1	58.1	88.6
3	ytu-ce-cosmos/turkish-e5-large	72.2	80.0	54.8	70.9	76.4	50.8	58.7	84.1
4	newmindai/TurkEmbed4STS	71.4	85.5	63.7	81.0	69.9	53.7	56.0	84.6
5	google/embeddinggemma-300m	71.0	72.9	54.7	67.6	73.3	-	-	-
6	selmanbaysan/turkish embedding model fine tuned	70.5	78.4	63.2	80.0	58.1	51.7	57.2	80.4
7	sentence-transformers/paraphrase-multilingual-mpnet-base-v2	69.8	82.2	60.7	82.8	58.0	46.2	51.5	65.9
8	alibaba-NLP/gte-multilingual-base	69.8	80.7	60.3	75.7	68.6	56.3	56.8	81.9
9	alibayram/embeddingmagibu-200m	69.5	77.5	60.8	76.0	62.3	-	57.4	79.5
10	intfloat/multilingual-e5-base	69.5	78.4	54.0	68.8	76.9	56.0	57.1	86.9

Analiz: Modelimiz, teacher modeli olan google/embeddinggemma-300m (Rank 5, Avg 71.0) ile karşılaştırıldığında, boyutu 200M’a düşürülmüş olmasına rağmen özellikle STS (77.5 vs 72.9) ve Retrieval (76.0 vs 67.6) görevlerinde öğretmenini geçmeyi başarmıştır. NLI skorunda da (60.8 vs 54.7) belirgin bir iyileşme görülmektedir. Sınıflandırma ve diğer bazı görevlerde ise bir miktar performans farkı oluşmuştur.

Usage (Kullanım)

Sentence Transformers

Kurulum:

pip install -U sentence-transformers

Basit kullanım:

from sentence_transformers import SentenceTransformer

# Modeli yükle (remote code trust gerekli olabilir)
model = SentenceTransformer("alibayram/embeddingmagibu-200m", trust_remote_code=True)

# 8192 token uzunluğuna kadar metinleri işleyebilir
sentences = [
    "Bugün hava çok güzel.",
    "Dışarısı güneşli.",
    "Uzun bağlam gerektiren çok detaylı bir hukuki veya teknik metin..."
]

embeddings = model.encode(sentences, normalize_embeddings=True)
print(embeddings.shape)  # (3, 768)

Benzerlik hesaplama:

import numpy as np

sim = embeddings @ embeddings.T  # normalize edilmişse cosine == dot
print(sim)

Query/Document Modu

Model include_prompt=True ayarı ile eğitildiği için sorgu (query) ve doküman (document) ayrımı yapabilir:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("alibayram/embeddingmagibu-200m", trust_remote_code=True)

query = "Yapay zeka modellerinde distillation nedir?"
docs = [
    "Distillation, büyük bir öğretmen modelin bilgisinin daha küçük bir öğrenci modele aktarılmasıdır.",
    "Yapay zeka günümüzde çok popüler.",
]

q = model.encode_query(query)
d = model.encode_document(docs)

scores = model.similarity(q, d)
print(scores)

Sınırlamalar ve Uyarılar

Context Length: Model 8192 token’a kadar destek verse de, çok uzun metinlerde (chunking olmadan) tek parça embedding almak bellek kullanımını artırabilir.
Precision: float16 yerine mümkünse bfloat16 veya float32 kullanımı önerilir.

Citation

Eğer bu modeli akademik çalışmanızda kullanırsanız:

@misc{embeddingmagibu_200m_2026,
  title={embeddingmagibu-200m: Long-Context Turkish Sentence Embeddings},
  author={Bayram, M. Ali},
  year={2026},
  url={[https://huggingface.co/alibayram/embeddingmagibu-200m](https://huggingface.co/alibayram/embeddingmagibu-200m)}
}

Model Card Authors / Contact

Ali Bayram (alibayram)