GLM-5, Uluslararası Yazımda Gerileme Yaşıyor: NCBench Verileri Şaşırttı

GLM-5, Uluslararası Yazımda Gerileme Yaşıyor: NCBench Verileri Şaşırttı
GLM-5: Ölçekle İlerleme, Kaliteyle Gerileme?
Zhihu’nun yeni nesil yapay zeka modeli GLM-5, teknik olarak büyük bir adım olarak tanıtıldı. 744 milyar parametre, 28.5 trilyon token’lık eğitim verisi ve DeepSeek Sparse Attention gibi yenilikçi mimarilerle, bu modelin uzun metinlerde ve karmaşık agensial görevlerde öncü olacağını bekliyorduk. Ancak NCBench’in uluslararası metin yazımı testlerinde ortaya çıkan sonuç, bu heyecanı sarsan bir gerilemeyle karşılaştı: GLM-5, GLM-4.5’ten daha kötü yazıyor.
NCBench: Dilsel Becerilerin Gerçek Sınavı
NCBench, dil modellerinin uluslararası metin üretimi yeteneklerini ölçmek için özel olarak tasarlanmış bir test seti. Avrupa dilleri (İngilizce, Almanca, Fransızca, İspanyolca), Hindi ve diğer az kullanımlı dillerde, modelin akıcılık, gramer, stil ve kültürel uyum gibi kriterleri değerlendiriyor. GLM-5, bu testlerde GLM-4.5 ve hatta Gemini 2.5 Flash gibi daha küçük modellerin arkasında kaldı. Özellikle Hindi ve İtalyanca gibi kaynak verisi az olan dillerde, cümlelerin yapısı bozuldu, idiomatik ifadeler yanlış çevrildi ve metinlerin akışı kırık hale geldi.
İlginç olan ise, dil anlama (language comprehension) testlerinde GLM-5’in GLM-4.5’e kıyasla neredeyse eşit veya hafifçe daha iyi performans göstermesi. Bu, modelin metni anlama, çıkarım yapma ve bağlamı koruma konularında güçlü olduğunu, ancak üretme konusunda zayıf olduğunu gösteriyor. Yani: Model ne yazdığını bilmiyor, ama ne dediğini anlıyor.
Neden Bu Çelişki? Ölçek, Kaliteyi Yenemedi
GLM-5’in teknik raporlarında vurgulanan en büyük avantaj, ölçeklenme. 355B’dan 744B’ye parametre artışı, 23T’den 28.5T’ye veri artışı — bu rakamlar, genellikle ‘daha büyük = daha akıllı’ varsayımını destekliyor. Ancak bu durum, dil üretimi için geçerli değil. NCBench sonuçları, ölçeklenmenin tek başına kaliteyi artırmadığını gösteriyor. Hatta bazen, veri kalitesi ve eğitimin dengesi bozulduğunda, modelin hafızası ‘gürültüye’ dönüşüyor.
GLM-4.5, özellikle az kullanımlı diller için daha dengeli bir eğitim setiyle eğitilmiş olabilir. Bu model, küçük verilerle daha kalıcı öğrenme yapmayı başarmış. GLM-5 ise, büyük veri setlerine odaklanırken, bu dillerin nüanslarını kaybetmiş olabilir. Yani, model çok şeyi ‘öğrenmiş’, ama ‘anlamış’ değil.
Asenkron RL ve ‘Vibe Coding’: Gerçeklik mi, Pazarlama mı?
GLM-5’in tanıtımında ‘vibe coding’ ve ‘agentic engineering’ gibi estetik terimler kullanıldı. Bu kelimeler, teknik bir anlam taşımıyor; daha çok bir ‘duygusal pazarlama’ stratejisi. Modelin asenkron RL altyapısı (SLIME) ile eğitim verimliliği artırılmış olsa da, bu altyapının metin üretimi kalitesini doğrudan etkilediği kanıtlanmamış. Aslında, RL’in ana hedefi, modelin ‘kendini iyileştirmesi’ — ama bu, yalnızca belirli görevlerde geçerli. Dil üretimi gibi çok boyutlu, kültürel olarak derin bir görevde, RL’in etkisi sınırlı kalıyor.
Endüstriye Ders: Ölçek, Yeterli Değil
GLM-5’in bu gerilemesi, AI endüstrisine büyük bir ders veriyor: Ölçekleme, her şeyi çözmez. Özellikle çok dilli uygulamalarda, veri çeşitliliği, kültürel temsiliyet ve dilin sosyolingüistik yapısı, parametre sayısından çok daha önemli. Google’ın Gemini, Meta’nın Llama ve OpenAI’nin GPT serileri, bu konuda daha dengeli bir yol izledi. GLM-5 ise, ‘büyük olmak’ hedefine odaklanırken, ‘iyi olmak’ kaybedildi.
Kimler Etkileniyor?
- Çok dilli içerik üreticileri: Avrupa ve Asya pazarlarına yönelik metinler üretiyorsanız, GLM-5 yerine GLM-4.5 veya Llama 3.1 kullanmak daha akıllıca.
- Yerel dil teknolojileri: Hindi, Bengali, Farsça gibi dillerdeki uygulamalar, GLM-5’i test etmeden kullanmamalı.
- ARAŞTIRMACILAR: Bu durum, ‘ölçeklenme paradoksu’ adı verilen yeni bir araştırma alanını açıyor: Neden bazı modeller, ölçeklendikçe belirli görevlerde kötüleşiyor?
Sonuç: Bir Modelin Zekası, Parametre Sayısında Değil, Duygusunda
GLM-5, teknik olarak muazzam bir başarı. Ancak, bir dil modelinin gerçek başarısı, ne kadar çok veriyle eğitildiğinde değil, ne kadar doğru ve insani bir şekilde yazdığındadır. GLM-4.5, küçük bir model olarak, daha çok ‘dilin ruhunu’ anlıyor. GLM-5 ise, büyük bir makine olarak, sadece kelime zincirlerini üretiyor.
Bu, sadece bir modelin hatası değil — tüm AI endüstrisinin bir sorunu. Ölçek, bir araç. Ama hedef, insanla iletişim kurmak. Ve bu hedefe ulaşmak için, sadece parametreleri büyütmek yeterli değil. Dili anlamak, onunla nefes almak gerekir.


