5 Downloads Updated 2 weeks ago
ollama pull alibayram/embeddingmagibu-200m
Bu model, Türkçe odaklı çok uzun bağlam (8192 token) sentence embedding üretmek için eğitilmiş bir SentenceTransformer modelidir. 768 boyutlu normalize vektör uzayına projeksiyon yapar. 152M versiyonunun başarısı üzerine kurgulanmış olup, 200M parametre boyutu ve artırılmış bağlam uzunluğu ile daha derinlemesine metin temsili sağlar.
Özellikle şu görevler için uygundur:
Modelin TR-MTEB kapsamında değerlendirildiği 19 görevin detaylı sonuçları aşağıdadır:
| Kategori | Görev (Task) | Skor |
|---|---|---|
| STS | STSbTR | 77.5 |
| NLI | SnliTr | 60.8 |
| XNLI | 76.0 | |
| Retrieval | SquadTRRetrieval | 62.3 |
| MSMarcoTRRetrieval | 57.4 | |
| TQuadRetrieval | 79.5 | |
| Sınıflandırma | THYSentimentClassification | 59.5 |
| TSTimelineNewsCategoryClassification | 58.7 | |
| Turkish75NewsClassification | 90.7 | |
| TurkishIronyClassification | 52.6 | |
| TurkishMovieSentimentClassification | 71.9 | |
| TurkishNewsCategoryClassification | 88.8 | |
| TurkishOffensiveLanguageClassification | 63.9 | |
| TurkishProductSentimentClassification | 60.9 | |
| Kümeleme | TurkishAbstractCorpusClustering | 58.9 |
| TurkishColumnWritingClustering | 63.6 | |
| İki-Dilli | WMT16BitextMining | 97.1 |
| Diğer | ArguAnaTR | 45.3 |
| NFCorpusTR | 10.7 | |
| GENEL | Ortalama | 69.5 |
Önceki versiyon olan embeddingmagibu-152m ile ortak 15 görevdeki karşılaştırma sonuçları:
| Görev | embeddingmagibu-200m | embeddingmagibu-152m | Fark |
|---|---|---|---|
| ORTALAMA | 69.5 | 67.0 | +2.5 🚀 |
| STSbTR | 77.5 | 75.1 | +2.4 |
| SnliTr | 60.8 | 55.4 | +5.4 |
| SquadTRRetrieval | 62.3 | 68.7 | -6.4 |
| THYSentimentClassification | 59.5 | 51.0 | +8.5 |
| TSTimelineNewsCategoryClassification | 58.7 | 60.8 | -2.1 |
| Turkish75NewsClassification | 90.7 | 92.7 | -2.0 |
| TurkishAbstractCorpusClustering | 58.9 | 61.8 | -2.9 |
| TurkishColumnWritingClustering | 63.6 | 61.8 | +1.8 |
| TurkishIronyClassification | 52.6 | 48.4 | +4.2 |
| TurkishMovieSentimentClassification | 71.9 | 67.3 | +4.6 |
| TurkishNewsCategoryClassification | 88.8 | 90.8 | -2.0 |
| TurkishOffensiveLanguageClassification | 63.9 | 59.6 | +4.3 |
| TurkishProductSentimentClassification | 60.9 | 59.1 | +1.8 |
| WMT16BitextMining | 97.1 | 91.9 | +5.2 |
| XNLI | 76.0 | 60.8 | +15.2 |
Model, sıfırdan rastgele başlatılmak yerine iki aşamalı özel bir yaklaşımla geliştirilmiştir:
Bu sayede, büyük modellerle yarışan kaliteyi hedeflerken parametre sayısı yaklaşık 200M seviyesinde tutulmuştur.
Bu model SentenceTransformers formatında aşağıdaki boru hattını kullanır. max_seq_length değeri 8192‘ye çıkarılmıştır:
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: Gemma3TextModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Dense({'in_features': 768, 'out_features': 3072, 'bias': False, 'activation_function': 'torch.nn.modules.linear.Identity'})
(3): Dense({'in_features': 3072, 'out_features': 768, 'bias': False, 'activation_function': 'torch.nn.modules.linear.Identity'})
(4): Normalize()
)
Bu bölüm, modelin “nasıl üretildiğini” teknik detaylarıyla anlatır.
Amaç: Türkçe metinler için daha uygun alt-parça dağılımı elde ederek vocab’ı küçültmek ve embedding tablosu parametrelerini optimize etmektir.
transformer-clonerSıfırdan model başlatmak yerine, teacher modelin (EmbeddingGemma) ağırlıklarını koruyarak yeni tokenizer’a adapte edebilmek için transformer-cloner kütüphanesi kullanılmıştır.
Student model, teacher’ın embedding uzayına yaklaşacak şekilde eğitilmiştir.
Teacher embedding’leri önceden hesaplanmış ve distil-trainer kullanılarak student model optimize edilmiştir.
Modelin performansı STSbTR (Semantic Textual Similarity Benchmark - Turkish) üzerinde ölçülmüştür. TR-MTEB (Massive Text Embedding Benchmark) testleri devam etmektedir ve tamamlandığında eklenecektir.
Aşağıdaki tablo, modelin test setindeki performansını ve diğer modellerle karşılaştırmasını göstermektedir.
Test Metriği:
| Model | Pearson | Spearman |
|---|---|---|
| intfloat/multilingual-e5-large-instruct | 0.8275 | 0.8129 |
| trmteb/turkish-embedding-model-fine-tuned | 0.8215 | 0.8061 |
| embeddingmagibu-200m (Bu Model) | 0.8199 | 0.7980 |
| ytu-ce-cosmos/turkish-e5-large | 0.8090 | 0.7906 |
| sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 | 0.7884 | 0.7659 |
| google/embeddinggemma-300m (Teacher) | 0.7391 | 0.7194 |
Not: Bu sonuçlar modelin özellikle semantik benzerlik konusunda teacher modelini (EmbeddingGemma-300m) belirgin şekilde geçtiğini ve lider tablosundaki (SOTA) modellere çok yaklaştığını göstermektedir.
TR-MTEB (Türkçe Gömme Kıyaslaması) sonuçlarına göre modelimiz, 768 boyutlu modeller arasında genel ortalamada 69.5 puan ile üst sıralarda yer almaktadır. Özellikle STS (77.5) ve Retrieval (76.0) görevlerinde güçlü performans sergilediği görülmektedir.
Aşağıdaki tablo, MTEB lider tablosundaki ilgili modellerin genel ve kategori bazlı skorlarını göstermektedir:
| Rank | Model | Avg | STS | NLI | Erişim (Ret.) | Sınıflandırma | Kümeleme | İki-Dilli | Diğer |
|---|---|---|---|---|---|---|---|---|---|
| 1 | intfloat/multilingual-e5-large-instruct | 72.8 | 81.2 | 52.5 | 72.7 | 73.0 | 51.3 | 56.8 | 84.7 |
| 2 | intfloat/multilingual-e5-large | 72.3 | 81.2 | 55.8 | 72.6 | 80.1 | 61.1 | 58.1 | 88.6 |
| 3 | ytu-ce-cosmos/turkish-e5-large | 72.2 | 80.0 | 54.8 | 70.9 | 76.4 | 50.8 | 58.7 | 84.1 |
| 4 | newmindai/TurkEmbed4STS | 71.4 | 85.5 | 63.7 | 81.0 | 69.9 | 53.7 | 56.0 | 84.6 |
| 5 | google/embeddinggemma-300m | 71.0 | 72.9 | 54.7 | 67.6 | 73.3 | - | - | - |
| 6 | selmanbaysan/turkish embedding model fine tuned | 70.5 | 78.4 | 63.2 | 80.0 | 58.1 | 51.7 | 57.2 | 80.4 |
| 7 | sentence-transformers/paraphrase-multilingual-mpnet-base-v2 | 69.8 | 82.2 | 60.7 | 82.8 | 58.0 | 46.2 | 51.5 | 65.9 |
| 8 | alibaba-NLP/gte-multilingual-base | 69.8 | 80.7 | 60.3 | 75.7 | 68.6 | 56.3 | 56.8 | 81.9 |
| 9 | alibayram/embeddingmagibu-200m | 69.5 | 77.5 | 60.8 | 76.0 | 62.3 | - | 57.4 | 79.5 |
| 10 | intfloat/multilingual-e5-base | 69.5 | 78.4 | 54.0 | 68.8 | 76.9 | 56.0 | 57.1 | 86.9 |
Analiz: Modelimiz, teacher modeli olan
google/embeddinggemma-300m(Rank 5, Avg 71.0) ile karşılaştırıldığında, boyutu 200M’a düşürülmüş olmasına rağmen özellikle STS (77.5 vs 72.9) ve Retrieval (76.0 vs 67.6) görevlerinde öğretmenini geçmeyi başarmıştır. NLI skorunda da (60.8 vs 54.7) belirgin bir iyileşme görülmektedir. Sınıflandırma ve diğer bazı görevlerde ise bir miktar performans farkı oluşmuştur.
Kurulum:
pip install -U sentence-transformers
Basit kullanım:
from sentence_transformers import SentenceTransformer
# Modeli yükle (remote code trust gerekli olabilir)
model = SentenceTransformer("alibayram/embeddingmagibu-200m", trust_remote_code=True)
# 8192 token uzunluğuna kadar metinleri işleyebilir
sentences = [
"Bugün hava çok güzel.",
"Dışarısı güneşli.",
"Uzun bağlam gerektiren çok detaylı bir hukuki veya teknik metin..."
]
embeddings = model.encode(sentences, normalize_embeddings=True)
print(embeddings.shape) # (3, 768)
Benzerlik hesaplama:
import numpy as np
sim = embeddings @ embeddings.T # normalize edilmişse cosine == dot
print(sim)
Model include_prompt=True ayarı ile eğitildiği için sorgu (query) ve doküman (document) ayrımı yapabilir:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("alibayram/embeddingmagibu-200m", trust_remote_code=True)
query = "Yapay zeka modellerinde distillation nedir?"
docs = [
"Distillation, büyük bir öğretmen modelin bilgisinin daha küçük bir öğrenci modele aktarılmasıdır.",
"Yapay zeka günümüzde çok popüler.",
]
q = model.encode_query(query)
d = model.encode_document(docs)
scores = model.similarity(q, d)
print(scores)
float16 yerine mümkünse bfloat16 veya float32 kullanımı önerilir.Eğer bu modeli akademik çalışmanızda kullanırsanız:
@misc{embeddingmagibu_200m_2026,
title={embeddingmagibu-200m: Long-Context Turkish Sentence Embeddings},
author={Bayram, M. Ali},
year={2026},
url={[https://huggingface.co/alibayram/embeddingmagibu-200m](https://huggingface.co/alibayram/embeddingmagibu-200m)}
}