7 Downloads Updated 2 weeks ago
ollama run alibayram/magibu-11b-v8
Updated 2 weeks ago
2 weeks ago
e3129bef2320 · 6.9GB ·

Cetvel Türkçe Benchmark’ta 34 model arasında 3. sıra 🥉 · QA’da 1. sıra 🥇 · 27B+ modellerle rekabet eder · Multimodal (Görsel + Metin)
Magibu-11b-v0.8, Magibu AI Research tarafından geliştirilen, Türkçe odaklı, çok dilli, Çok Modlu (Multimodal) bir modeldir.
Önemli Not: Bu model, mevcut bir modelin üzerine yapılan basit bir “fine-tune” işlemi değildir. Magibu-11b, kendi geliştirdiğimiz özgün eğitim yöntemleri ve veri setleri ile üretilmiştir. Google Gemma-3 modeli güncel kütüphanelerle (Transformers, VLLM, Ollama vb.) tam uyumlu çalışabilmesi için hem bilgi hem de altyapı standardı olarak kullanılmıştır.
Türkçe’ye özel optimize edilmiş tokenizer’ı sayesinde, dünyadaki en token-verimli Türkçe modellerden biridir.
Standart tokenizer’lar Türkçe kelimeleri anlamsız, çok sayıda küçük parçaya böler. Bu durum şunlara yol açar:
Magibu, Türkçe’ye özel eğitim süreci sayesinde bu sorunu çözer ve diğer tüm modellerden %30 - %127 daha verimli çalışır.
| Özellik | Değer |
|---|---|
| Mimari | google/gemma-3-12b-it uyumlu |
| Parametre Sayısı | ~11.3 Milyar |
| Context Penceresi | 32,768 token |
| Yetenekler | Çok Modlu / Multimodal (Görsel + Metin) → Metin, Çok Dilli Chat |
| Ana Dil | Türkçe 🇹🇷 (Native seviyesinde optimizasyon) |
| Diğer Diller | 40+ (EN, DE, FR, ES, RU, AR, JP, ZH…) |
| Geliştirici | Magibu AI Research |
| Versiyon | v0.8 (Deneysel sürüm) |
[!IMPORTANT] Bu model aktif geliştirme aşamasında olan deneysel bir sürümdür. Kullanmadan önce lütfen aşağıdaki maddeleri okuyunuz.
🚀 Erken Geliştirme Aşaması: Magibu, kendi boyutundan çok daha büyük modellerle yarışabilecek kapasitede olmasına rağmen, henüz olgunlaşmış tam versiyonuna ulaşmamıştır. Özellikle yazım hataları yapma oranı yüksek olabilir. Bu sorunları hızla düzeltmek için kullanıcı geri bildirimlerine ihtiyacımız var.
🔧 Araç Kullanım Desteği Henüz Aktif Değil: Tarih, hava durumu, güncel olaylar, kelimelerdeki harf sayısı, karmaşık ya da bazen basit matematik soruları gibi işlemler, aslında ancak harici araçlar (API, hesap makinesi vb.) kullanılarak doğru yanıtlanabilir. Diğer büyük modelleri kullandığınız sistemlerde bu araçlar entegre çalıştığı için doğru sonuç alırsınız. Magibu’da araç kullanma yeteneği henüz sisteme eklenmediğinden bu tür sorularda hatalı cevaplar verebilir. Bu özellik üzerinde çalışmaya devam ediyoruz.
🪞 Kimlik Tutarsızlığı: Magibu, özel eğitim yöntemleri ve sentetik verilerle oluşturulduğundan, zaman zaman kimlik bunalımı yaşayabilir. “Sen kimsin?” gibi sorulara farklı ve tutarsız cevaplar verebilir. Model kimliğinin tutarlılığı üzerinde çalışmalarımız devam etmektedir.
⚠️ Halüsinasyon Riski: Tüm büyük dil modellerinde olduğu gibi, Magibu da zaman zaman gerçek olmayan bilgiler üretebilir (halüsinasyon). Özellikle olgusal bilgi gerektiren konularda modelin verdiği yanıtları mutlaka doğrulamanızı öneririz.
📏 Sınırlı Sunucu Kaynakları (Canlı Demo): Canlı demo üzerinde sunucu kaynaklarımız sınırlı olduğundan model yanıtları kısa tutulmaktadır. Sınırsız kullanım için modeli Ollama, MLX veya Transformers ile indirip kendi ortamınızda çalıştırabilirsiniz.
💡 Geri bildirimleriniz modeli iyileştirmemize yardımcı olur. Demo üzerindeki ↑ ↓ butonlarını kullanarak geri bildirim iletebilirsiniz. Teşekkür ederiz!
Magibu-11b-v0.8, Türkçe MMLU benchmark testinde %74.40 başarı oranı ile 44 açık kaynak model arasında 6. sırada yer almaktadır. Kendisinden 2 ila 6 kat daha büyük modelleri geride bırakmayı başarmıştır.
🔥 Magibu-11b (11B) vs. Llama-3.1 (70B): Magibu, 70 Milyar parametreli Llama-3.1 modelini +4 puan farkla geçmiştir (%74.40 vs %70.42). Bunu yaparken 6 kat daha az işlem gücü ve %54 daha az token kullanır.
🏛️ Magibu-11b vs. Turkish-Gemma-9b-T1 (YTU COSMOS): Yıldız Teknik Üniversitesi COSMOS Lab tarafından geliştirilen Turkish-Gemma-9b-T1 modeli %70.34 skor almıştır. Magibu, benzer parametre sayısında +4.06 puan fark atarak ve çok daha verimli çalışarak öne çıkmaktadır.
| # | Model | Param | MMLU | Token | MMLU Farkı | Token Farkı |
|---|---|---|---|---|---|---|
| 1 | Llama-3.3 | 70B | 79.42% | 221,411 | +6.75% | +53.85% |
| 2 | DeepSeek-V3.2 | 685B MoE | 77.69% | 326,246 | +4.42% | +126.69% |
| 3 | Kimi-K2 | 1T MoE | 77.44% | 312,609 | +4.09% | +117.22% |
| 4 | Qwen3-32B | 32B | 75.98% | 260,407 | +2.12% | +80.95% |
| 5 | Gemma-3 27B | 27B | 75.06% | 211,024 | +0.89% | +46.63% |
| 6 | 🧿 Magibu-11b | 11B | 74.40% | 143,915 | — | — |
| 7 | Qwen3-30B (A3B MoE) | 30B | 74.26% | 260,407 | -0.19% | +80.95% |
| 8 | MedGemma-27B | 27B | 74.18% | 211,024 | -0.30% | +46.63% |
| 9 | Emre-Gemma3-27B | 27B | 73.21% | 211,024 | -1.60% | +46.63% |
| 10 | Gemma-2 27B | 27B | 72.10% | 223,174 | -3.09% | +55.07% |
| 11 | Qwen3-14B | 14B | 71.65% | 260,407 | -3.70% | +80.95% |
| 12 | Doktor-Gemma3 12B | 12B | 71.08% | 211,024 | -4.46% | +46.63% |
| 13 | Gemma-3 12B | 12B | 70.74% | 211,024 | -4.92% | +46.63% |
| 14 | Aya-Expanse 32B | 32B | 70.66% | 187,742 | -5.03% | +30.45% |
| 15 | Ministral-3 14B | 14B | 70.55% | 244,878 | -5.17% | +70.15% |
| ⚔️16 | Llama-3.1 70B | 70B | 70.42% | 221,411 | -5.35% | +53.85% |
| 🏛️17 | Turkish-Gemma-9b-T1 | 9B | 70.34% | 223,174 | -5.46% | +55.07% |
| 18 | Gemma-2 9B | 9B | 69.26% | 223,174 | -6.91% | +55.07% |
| 19 | Metin-Gemma2 DPO | 9B | 69.16% | 223,174 | -7.04% | +55.07% |
| 20 | GPT-OSS-20B (OpenAI) | 20B | 68.47% | 224,052 | -7.97% | +55.68% |
| 21 | Mistral-Small 24B | 24B | 68.37% | 244,937 | -8.10% | +70.20% |
| 22 | Qwen3-7B | 7B | 67.56% | 260,407 | -9.19% | +80.95% |
| 23 | Ministral-3B (latest) | 3B | 67.44% | 244,878 | -9.35% | +70.15% |
| 24 | Mistral-Small (old) | 24B | 66.97% | 244,937 | -9.99% | +70.20% |
| 25 | Phi-4 14B | 14B | 65.52% | 316,029 | -11.94% | +119.59% |
Token Farkı: Magibu-11b’ye kıyasla diğer modellerin aynı metni ifade etmek için yüzde kaç daha fazla token kullandığını gösterir. Pozitif değerler, modelin Türkçe için daha az verimli olduğunu (daha çok token harcadığını) belirtir.
Magibu-11b-v0.8, Cetvel — Türkçe için en kapsamlı birleşik LLM benchmark’ında — 34 model arasında 3. sırada yer almaktadır (ortalama: 32.5).
7 farklı NLP kategorisinde (GEC, MCQA, MT, NLI, QA, SUM, TC) toplam 26 görevde değerlendirilen model, 14B altındaki en yüksek puanlı model olarak öne çıkmaktadır. Kendisinden 3-6 kat büyük modelleri (aya-23-35B, aya-expanse-32b vs.) geride bırakmayı başarmıştır.
🥇 Soru Cevaplama (QA) kategorisinde tüm modeller arasında 1. sıra — 45.0 puanla en yakın rakibini (Qwen2.5-14B, 26.7) büyük farkla geçmiştir.
🥈 Özetleme (SUM) kategorisinde 2. sıra — 24.9 puanla aya-expanse-32b’yi (22.4) geride bırakmıştır.
| # | Model | Boyut | Ort. | GEC | MCQA | MT | NLI | QA | SUM | TC |
|---|---|---|---|---|---|---|---|---|---|---|
| 1 | Llama-3.3-70B-Instruct | 70B | 35.9 | 44.1 | 60.1 | 24.0 | 32.4 | 16.1 | 16.2 | 58.1 |
| 2 | aya-expanse-32b | 32B | 33.6 | 4.5 | 55.6 | 27.6 | 43.3 | 26.2 | 22.4 | 55.3 |
| 3 | 🧿 Magibu-11b-v0.8 | 11B | 32.5 | 19.6 | 49.3 | 11.4 | 32.1 | 45.0 | 24.9 | 44.9 |
| 4 | aya-23-35B | 35B | 31.7 | 30.8 | 48.8 | 25.1 | 37.6 | 23.7 | 17.6 | 38.0 |
| 5 | cere-llama-3-8b-tr | 8B | 30.4 | 46.0 | 44.8 | 8.2 | 34.0 | 24.2 | 12.2 | 43.7 |
| 6 | Meta-Llama-3.1-8B | 8B | 30.3 | 35.3 | 45.8 | 21.2 | 32.2 | 19.3 | 13.5 | 44.8 |
| 7 | Meta-Llama-3.1-8B-Instruct | 8B | 29.3 | 31.5 | 50.1 | 15.9 | 36.0 | 18.0 | 13.5 | 40.1 |
| 8 | Meta-Llama-3-8B | 8B | 29.1 | 34.1 | 43.0 | 19.1 | 33.9 | 20.9 | 12.3 | 40.6 |
| 9 | Qwen2.5-7B | 7B | 29.1 | 22.3 | 50.6 | 11.9 | 34.0 | 20.5 | 12.8 | 51.6 |
| 10 | Ministral-8B-Instruct | 8B | 28.1 | 39.1 | 42.8 | 15.8 | 34.0 | 14.2 | 12.8 | 38.0 |
| … | (24 model daha) | |||||||||
| 34 | TURNA | — | 16.3 | 0.0 | 35.9 | 0.2 | 34.1 | 0.0 | 7.1 | 36.6 |
Kategori Kısaltmaları: GEC = Gramer Düzeltme, MCQA = Çoktan Seçmeli, MT = Makine Çevirisi, NLI = Doğal Dil Çıkarımı, QA = Soru Cevaplama, SUM = Özetleme, TC = Metin Sınıflandırma
| Görev | F1 | EM | Açıklama |
|---|---|---|---|
| tquad | 66.5 | 44.6 | Türkçe SQuAD |
| xquad_tr | 57.7 | 41.0 | Çapraz Dil QA (Türkçe) |
| mkqa_tr | 10.8 | 5.8 | Çok Dilli Açık Alan QA |
| Görev | ROUGE-1 | ROUGE-2 | ROUGE-L | Açıklama |
|---|---|---|---|---|
| mlsum_tr | 33.8 | 18.3 | 27.0 | Haber özetleme |
| xlsum_tr | 26.1 | 11.5 | 19.6 | Çapraz dil özetleme |
| wiki_lingua_tr | 20.6 | 6.4 | 15.6 | WikiHow makale özetleme |
| tr-wikihow-summ | 19.2 | 5.8 | 14.1 | WikiHow özetleme |
| Görev | Skor | Açıklama |
|---|---|---|
| belebele_tr | 81.2 | Okuduğunu anlama |
| xcopa_tr | 63.6 | Nedensel muhakeme |
| turkish_plu_step_ordering | 59.2 | Prosedürel adım sıralama |
| turkish_plu_next_event | 43.0 | Sonraki olay tahmini |
| exams_tr | 37.2 | Türkçe sınav soruları |
| turkish_plu_goal_inference | 31.0 | Hedef çıkarımı |
| turkish_plu_step_inference | 30.0 | Adım çıkarımı |
| Görev | Skor | Açıklama |
|---|---|---|
| ironytr | 68.2 | İroni algılama |
| offenseval_tr | 52.8 | Saldırgan dil tespiti |
| news_cat | 49.2 | Haber kategorilendirme |
| relevance_judgment | 45.0 | İddia ilişkisi |
| check_worthiness | 43.0 | Doğrulanabilirlik tespiti |
| xfact_tr | 33.1 | Doğruluk kontrolü |
| sts_tr | 23.0 | Anlamsal metin benzerliği |
| Görev | Skor | Açıklama |
|---|---|---|
| xnli_tr | 34.2 | Çapraz dil NLI |
| snli_tr | 32.2 | Stanford NLI (Türkçe) |
| mnli_tr | 29.8 | Multi-genre NLI (Türkçe) |
| Görev | Skor | Açıklama |
|---|---|---|
| gecturk_generation | 19.6 | Birebir gramer düzeltme |
| Görev | BLEU | WER | Açıklama |
|---|---|---|---|
| wmt-tr-en-prompt | 11.4 | 93.4 | İngilizce → Türkçe çeviri |
Cetvel değerlendirmesi kapsamında ayrıca çalıştırılan TurkishMMLU alt görevleri (standart sıralamaya dahil değildir):
| Konu | Skor |
|---|---|
| Felsefe | 83.0 |
| Din Kültürü ve Ahlak | 79.0 |
| Coğrafya | 71.0 |
| Tarih | 66.0 |
| Türk Dili ve Edebiyatı | 48.0 |
| Biyoloji | 45.0 |
| Fizik | 43.0 |
| Kimya | 42.0 |
| Matematik | 32.0 |
| Görev | Skor | Açıklama |
|---|---|---|
| circumflex_tr | 64.3 | Türkçe şapka işareti ayrımı |
| turkce_atasozleri | 60.6 | Türkçe atasözü tamamlama |
| bilmecebench | 49.8 | Türkçe bilmece benchmark’ı |
Güçlü Yönler:
Geliştirmeye Açık Alanlar:
| Parametre | Değer |
|---|---|
| Benchmark | Cetvel v1.0 |
| Framework | lm-evaluation-harness v0.4.11 |
| Precision | bfloat16 (~22 GB VRAM) |
| Max Length | 4096 token |
| Few-shot | 0-shot |
| Sample Limit | 500 / görev |
| Chat Template | Gemma-2 formatı |
| System Instruction | "Sadece istenen çıktıyı üret." |
| Toplam Görev | 38 (26 standart + 9 TurkishMMLU + 3 ekstra) |
| GPU | NVIDIA A100-SXM4-80GB |
| Çalışma Süresi | ~90 dakika |
Not: Değerlendirme görev başına 500 örnek limiti ile yapılmıştır. Tam veri seti ile yapılan değerlendirmelerde ±%2-3 sapma beklenebilir. Detaylı rapor ve replikasyon rehberi için: cetvel_results_magibu_11b_v0.8.md
44 modelin Türkçe performans sıralaması. Magibu-11b (turuncu ◆), kendisinden çok daha büyük modelleri (Llama-3.1 70B, Gemma-2 27B vb.) geride bırakmıştır.

Bu grafik, modellerin doğruluğu (Y ekseni) ile token harcamasını (X ekseni) karşılaştırır. İdeal konum sol üst köşedir (az token, çok başarı). Magibu-11b bu bölgede tek başınadır.

Modellerin aynı Türkçe veri setini (MMLU) kaç token ile ifade ettiğinin karşılaştırması. Magibu en düşük token sayısına sahiptir.

Farklı model ailelerinin (Gemma, Llama, Qwen, vb.) verimlilik gruplandırması. Magibu (turuncu ●) diğer tüm ailelerden ayrı bir verimlilik sınıfındadır.

Türkçe gibi sondan eklemeli dillerde kelimeler ek alarak uzar. Standart Batı dilleri için eğitilmiş tokenizer’lar bu kelimeleri verimsiz böler.
Örnek:
| Türkçe İfade | Standart Tokenizer | Magibu Tokenizer |
|---|---|---|
evlerimizden |
ev, ler, im, iz, den (5 token) |
evlerimizden (1-2 token) |
güzelleştiremediklerimizden |
8-12 token | 3-4 token |
Türkiye'nin |
Tür, kiye, ', nin (4 token) |
Türkiye'nin (1-2 token) |
Sonuç: alibayram/turkish_mmlu veri setinin tamamı tokenize edildiğinde ortaya çıkan farklar:
| Sıra | Tokenizer | Toplam Token | Fark (vs Magibu) | Not |
|---|---|---|---|---|
| 🥇 | Magibu-11b | 143,915 | — | 🇹🇷 En İyi Türkçe Model |
| 🥈 | Aya-Expanse | 187,742 | +30.5% daha fazla | Çok dilli model |
| 🥉 | Gemma-3 | 211,024 | +46.6% daha fazla | Google Official |
| 4 | Llama-3 | 221,411 | +53.9% daha fazla | Meta Official |
| 5 | Turkish-Gemma-9b (COSMOS) | 223,174 | +55.1% daha fazla | YTU (Fine-tune) |
| 6 | Qwen2/3 | 260,407 | +80.9% daha fazla | Alibaba |
| 7 | DeepSeek-V3.2 | 326,246 | +126.7% daha fazla | DeepSeek |
Pratik Etkisi: Magibu ile 1000 token tutan bir işlem, diğer modellerde 1300-2200 token tutar. Magibu kullanmak daha hızlıdır, daha ucuzdur ve daha uzun metinleri hafızada tutabilir.
from transformers import pipeline
soru = "Zaman makineniz olsaydı ve sadece bir kez geçmişe ya da geleceğe gidebilseydiniz, hangisini seçerdiniz ve neden?"
generator = pipeline("text-generation", model="magibu/magibu-11b-v0.8", device="cuda")
cevap = generator(
[{"role": "user", "content": soru}],
max_new_tokens=512,
return_full_text=False
)[0]
print(cevap["generated_text"])
Magibu-11b, görselleri anlayabilir ve soruları yanıtlayabilir (VLM):
from transformers import AutoProcessor, AutoModelForImageTextToText
from PIL import Image
model = AutoModelForImageTextToText.from_pretrained("magibu/magibu-11b-v0.8", device_map="auto")
processor = AutoProcessor.from_pretrained("magibu/magibu-11b-v0.8")
image = Image.open("foto.jpg")
messages = [
{"role": "user", "content": [
{"type": "image", "image": image},
{"type": "text", "text": "Bu fotoğrafta ne görüyorsun? Detaylı açıkla."}
]}
]
inputs = processor.apply_chat_template(messages, return_tensors="pt").to(model.device)
output = model.generate(**inputs, max_new_tokens=512)
print(processor.decode(output[0], skip_special_tokens=True))
# Tek komutla kur ve çalıştır
ollama run alibayram/magibu-11b-v8
pip install mlx-vlm
# OpenAI uyumlu sunucu başlat
mlx_vlm.server --model alibayram/magibu-11b-v8-mlx --port 8080
# Veya Python içinde kullan
mlx_vlm.generate --model alibayram/magibu-11b-v8-mlx --prompt "Merhaba, nasılsın?"
| Format | Link | Boyut | Kullanım Alanı |
|---|---|---|---|
| 🤗 Transformers (bfloat16) | magibu/magibu-11b-v0.8 | ~22 GB | Fine-tuning, Araştırma, GPU |
| 🦙 Ollama (GGUF) | ollama.com/alibayram/magibu-11b-v8 | ~6 GB | PC, Mac, CPU+GPU |
| 🍎 MLX (4-bit) | alibayram/magibu-11b-v8-mlx | ~6 GB | Apple Silicon Mac (M Serisi) |
| Kaynak | Link |
|---|---|
| 🤗 Model Sayfası | magibu/magibu-11b-v0.8 |
| 🌐 Resmi Site | magibu-chat.web.app |
| 💬 Canlı Demo | magibu-chat.web.app |
| 📚 MMLU Benchmark Verisi | alibayram/turkish_mmlu |
| 📏 Cetvel Benchmark | KUIS-AI/cetvel |
| 📄 Cetvel Detaylı Rapor | cetvel_results_magibu_11b_v0.8.md |
Modeli çalışmalarınızda kullanırsanız lütfen aşağıdaki şekilde atıf yapınız:
@misc{bayram2025magibu,
title = {{Magibu-11b: A Turkish-Native Multilingual Vision-Language Model with Optimized Tokenization}},
author = {Ali Bayram},
year = 2025,
howpublished = {\url{https://huggingface.co/magibu/magibu-11b-v0.8}},
note = {Developed by Magibu AI Research}
}
Magibu AI Research tarafından ❤️ ile geliştirildi 🧿
Geri bildirimleriniz bizim için değerlidir — demo üzerindeki butonu kullanarak iletebilirsiniz.