Yapay Zeka Sıralamaları Güvenilir Mi? MIT Araştırması Çarpıcı Uyarıda Bulundu

Yapay Zeka Sıralamaları Güvenilir Mi? MIT Araştırması Çarpıcı Uyarıda Bulundu
Yapay zeka dünyasında her hafta yeni bir model çıkıyor, her gün yeni bir sıralama listesi yayınlanıyor. ChatGPT, Gemini, Claude, Llama — hepsi birbirini geçmeye çalışıyor. Ama bu sıralamalar gerçekten neyi ölçüyor? MIT Bilimsel Araştırma Grubu’nun yeni bir çalışması, bu sıralamaların çoğu için cevap çok basit: hiçbir şeyi güvenilir şekilde ölçmüyor.
Neden Bu Kadar Kararsız?
MIT araştırmacıları, 2025-2026 arasında 17 popüler LLM (Büyük Dil Modeli) sıralama platformunu inceledi. Bunlar arasında Hugging Face Open LLM Leaderboard, LMSYS Chatbot Arena, AI Arena ve BigBench gibi isimler yer alıyordu. Her biri, farklı test setleri, değerlendirme metrikleri ve kullanıcı oylamaları kullanıyordu. Ancak sonuçlar şaşırtıcıydı: Aynı model, bir platformda birinci, başka birinde 12. sırada olabiliyordu.
Çalışmanın kalbi, bir statistiksel kararsızlık analizi idi. Araştırmacılar, her platformun kullandığı test sorularının yalnızca 5-10%’lik bir alt kümesini değiştirerek (örneğin, bir sorunun dilini hafifçe değiştirip, kelime sırasını değiştirdiklerinde) model performanslarının ne kadar değiştiğini ölçtü. Sonuç? 68%’lik bir oranla, model sıralaması tamamen tersine döndü. Yani, bir modelin ‘en iyi’ olarak sınıflandırılması, sadece bir sorunun ifade şeklinin değiştirilmesiyle geçersiz hale geliyordu.
Ne Ölçüyor Aslında Bu Platformlar?
Bu sıralamalar, genellikle ‘performans’ diye tanımlanıyor. Ama MIT ekibi, bu terimin yanıltıcı olduğunu vurguluyor. Gerçekten ölçülüyor mu: akıl yürütme? yaratıcılık? güvenilirlik? yoksa sadece bir test setine nasıl yanıt verildiği?
Örneğin, bir model, bir matematik sorusunu doğru çözdüğünde ‘zeka’ olarak sayılıyor. Ama eğer o soru, eğitim verilerinde sıkça geçiyorsa, o zaman model sadece ezberlemiş oluyor. Ya da bir kullanıcı, bir metni daha ‘doğal’ buluyorsa, o model ‘daha iyi’ olarak işaretleniyor. Ama ‘doğallık’ ne demek? Kimin algısı? Hangi kültürel bağlamda?
Platformlar, bu karmaşık boyutları basit bir puan sistemiyle özetliyor. Bir model, 1000 soruda 890’ını doğru cevapladığında ‘%89’ diye etiketleniyor. Ama bu sayı, modelin bir hasta tıbbi teşhisi koyup koyamayacağını, bir çocuğa duygusal destek verebileceğini ya da bir yasa metnini yanlış yorumlayıp yorumlamayacağını hiç göstermiyor.
Kimler Etkileniyor?
Bu kararsızlık sadece akademik bir ilginçlik değil. Gerçek dünyada ciddi sonuçlar doğuruyor:
- Şirketler: Bir modelin ‘#1’ olarak tanımlanması, milyonlarca dolarlık yatırım kararı verilmesine neden oluyor. Yalnızca bir test setindeki küçük bir değişiklik, bu kararı tamamen yanlış hale getirebilir.
- Yöneticiler: Bir CEO, ‘ChatGPT-5 lider’ diye bir haber okuyor ve şirketin tüm AI stratejisini ona göre şekillendiriyor. Ama o liderlik, bir hafta sonra kaybolmuş olabilir.
- Öğrenciler ve araştırmacılar: Öğrenciler, sıralamalara dayanarak hangi modeli kullanacağını seçiyor. Araştırmacılar, ‘en iyi’ modeli referans alarak çalışmalarını yapıyor. Eğer referans hatalıysa, tüm araştırma yapı taşları sarsılıyor.
Çözüm Var Mı?
MIT ekibi, sadece ‘bu kötü’ demiyor. Çözüm öneriyor: Çoklu Perspektifli Değerlendirme Sistemi (Multi-Perspective Evaluation Framework).
Önerilen sistem, yalnızca bir test setiyle değil, dört temel eksenle modeli ölçmeyi öngörüyor:
- Stabilite: Model, test setindeki küçük değişikliklere nasıl tepki veriyor?
- Kapsamlılık: Sadece İngilizce mi? Yoksa küresel diller, dialektler, kültürel bağlamlar da mı test ediliyor?
- İşlevsel Güvenilirlik: Model, gerçek dünya senaryolarında (örneğin, tıbbi danışmanlık, hukuki analiz) güvenli mi?
- Şeffaflık: Hangi verilerle eğitildi? Hangi metrikler kullanıldı? Tüm kod ve veri setleri açık mı?
Bu sistem, sıralamaları ‘bir puan’ yerine, ‘bir profil’ haline getiriyor. Bir model, ‘matematikte güçlü, duygusal anlayışta zayıf, küresel dillerde sınırlı’ olarak gösterilebilir. Böylece kullanıcılar, kendi ihtiyaçlarına göre seçim yapabilir.
Geleceğin Sorusu: Kim Sıralıyor, Kimi?
Yapay zeka dünyasında, sıralamalar artık güç, itibar ve para kaynağı haline geldi. Ama bu sıralamaları yapanlar kim? Büyük teknoloji şirketleri mi? Akademik laboratuvarlar mı? Yoksa bir grup teknik uzman mı?
MIT çalışması, bize bir şeyi hatırlatıyor: İstatistiksel bir sıralama, gerçek dünyanın karmaşıklığını yansıtmaz. Bir modelin ‘en iyi’ olması, onun ‘en uygun’ olması demek değildir. Gelecekteki yapay zeka gelişimi, daha fazla ‘puan’ değil, daha fazla ‘anlam’ üzerine kurulmalı.
Belki de bir sonraki büyük adım, bir modeli sıralamak değil, onu anlamak olacak.


