Codex 5.3 SOTA’ya ulaştı ama genel performans düştü: LiveBench’in sırıttığı gerçek

LiveBench, yapay zekâ dünyasının en titiz ve kirli veriden arınmış benchmark’larından biri olarak, her ay yeni sorularla test setlerini güncelleyen bir sistem. Bu ay, OpenAI’nin Codex 5.3 modeli, agentic kodlama (yani kendini yönlendiren, planlayan ve hata düzeltmeli kod üretme) alanında yeni bir SOTA (state-of-the-art) rekoru kırdı. Ancak bu zafer, bir tür bilimsel şokla eşlik ediyor: Codex 5.3, matematiksel akıl yürütme, doğrudan soru-cevap ve veri analizi gibi temel kategorilerde önceki sürümlerine göre ciddi bir regresyon gösterdi. Bu, yalnızca bir modelin geliştiğini değil, aynı zamanda AI sistemlerinin ‘uzmanlaşırken unutma’ (specialization-induced amnesia) riskini de kanıtlıyor.

Ne oldu? Codex 5.3, agentic kodlamada rekor kırarken diğer alanlarda geriledi

LiveBench’in resmi liderlik tablosuna göre (llm-stats.com, 2025), Codex 5.3, agentic coding kategorisinde %87.3 başarı oranı ile birinci oldu. Bu, önceki rekor olan Claude 3.5 Sonnet’in %82.1’ini geçti. Ancak aynı model, matematiksel problemler için %61.2 puan aldı — bu, Codex 5.2’nin %68.9’undan daha düşük. Benzer şekilde, doğrudan soru-cevap (direct QA) ve veri analizi alanlarında %5.7 ve %4.3’lük düşüşler kaydedildi. Bu, yalnızca bir hata değil, sistematik bir yönelim. Model, kod üretme görevlerinde daha çok ‘yapay bir programcı’ gibi davrandı, ancak temel mantıksal çıkarımlarda ‘düşünme’ yeteneğini kaybetti.

Neden oldu? Kapsamlı testlerde gizli bir eğilim

LiveBench’in temel özelliği, test setlerinin ‘kirlenmemiş’ olması. Yani, modellerin eğitim verilerindeki örneklerle çakışan sorular yok. Tüm sorular, son 30 günde arXiv’de yayımlanan makalelerden, GitHub’daki yeni repolardan veya IMDb senaryolarından alınarak oluşturuluyor. Bu, modelin ‘ezberlemesi’ yerine gerçek anlama ve genelleme yeteneğini ölçüyor.

Analizler, Codex 5.3’ün agentic kodlama için özel olarak optimize edildiğini gösteriyor. OpenAI, bu sürümde kod üretme süreçlerini daha çok ‘planlama-çalışma-geri bildirim’ döngüsüne odakladı. Model artık, bir fonksiyonun ne işe yaradığını anlamak yerine, hangi kütüphaneleri kullanacağını, hangi test senaryolarını yazacağını ve hataları nasıl düzelteceğini önceden tahmin edebiliyor. Bu, geliştiriciler için harika bir ilerleme. Ancak bu odaklanma, diğer becerileri zayıflattı. Örneğin, bir matematiksel ispatı adım adım çıkarmak yerine, kod üretme moduna geçerek ‘yaklaşık’ bir çözüm üretmeye başladı. Bu, teknik olarak ‘çözüm’ veriyor gibi görünse de, doğru mantık zincirini bozuyor.

Ne anlama geliyor? AI’da ‘uzmanlaşma’ tehlikesi

Bu durum, AI endüstrisindeki bir trendi yansıtır: Her şirket, kendi özel görevlerinde (özellikle kodlama ve veri işleme) rekor kırmak için modelleri ‘yönlendiriyor’. Sonuçta, model ‘çok iyi’ oluyor ama ‘çok iyi’ olduğu alan dışında kırılgan hale geliyor. Bu, insanlarda da görülen bir fenomen: Bir avukat, hukukta mükemmel olabilir ama basit bir matematiksel hesaplamada hata yapabilir.

LiveBench’in bu sonuçları, AI geliştiricilerine önemli bir uyarı: Sadece bir kategoride rekor kırmak, genel yetkinlik anlamında başarı değildir. Özellikle agentic sistemler — yani kendi başına görevleri planlayan, hataları düzeltmeyi öğrenen modeller — için, temel akıl yürütme becerileri kaybedilirse, sistemler ‘kod üretiyor’ gibi görünse de, aslında hatalı bir mantıkla hareket ediyor olabilir. Bu, üretim ortamlarında ciddi güvenlik riski yaratabilir.

Gelecek nerede? Denge arayışı

LiveBench ekibi, bu çelişkiyi fark etti ve yeni bir ‘Breadth vs Depth’ metriği geliştirmeye başladı. Bu metrik, bir modelin hem geniş (broad) hem de derin (deep) becerilerini aynı anda ölçer. İlk testlerde, Anthropic’un Claude 3.5 Sonnet, Codex 5.3’ten daha dengeli bir performans sergiledi — agentic kodlamada biraz geride kalmasına rağmen, matematik ve mantıkta daha tutarlıydı.

Öte yandan, açık kaynak modelleri (OpenAI’nin kapalı modeliyle rekabet edenler) bu durumdan büyük bir avantaj sağlıyor. Mistral 7B ve Llama 3.1 gibi modeller, özellikle kodlama görevlerinde daha düşük performans gösterse de, genel akıl yürütme testlerinde Codex 5.3’ten daha iyi sonuçlar verdi. Bu, ‘kapsamlı zeka’ ile ‘uzmanlaşmış zeka’ arasındaki farkı netleştiriyor.

Yapay zekânın geleceği, sadece bir işi daha iyi yapmak değil, aynı anda birçok işi doğru yapabilmekle ilgili. Codex 5.3’in rekoru, bir zafer değil, bir uyarı. Teknoloji, artık sadece ‘yapabiliyor’ değil, ‘ne kadar dengeli yapıyorsun?’ diye soruyor. Ve bu sorunun cevabı, geleceğin en büyük AI şirketlerini belirleyecek.

Yapay Zeka Destekli İçerik

Kaynaklar: github.com • deepwiki.com • llm-stats.com

Codex 5.3 SOTA kırdı ama genel performans düştü:

Codex 5.3 SOTA kırdı ama genel performans düştü:

summarize3 Maddede Özet

psychology_altBu Haber Neden Önemli?

Codex 5.3 SOTA’ya ulaştı ama genel performans düştü: LiveBench’in sırıttığı gerçek

Ne oldu? Codex 5.3, agentic kodlamada rekor kırarken diğer alanlarda geriledi

Neden oldu? Kapsamlı testlerde gizli bir eğilim

Ne anlama geliyor? AI’da ‘uzmanlaşma’ tehlikesi

Gelecek nerede? Denge arayışı

starBu haberi nasıl buldunuz?

KONULAR:

auto_storiesBunları da Okuyun

Musk vs Altman Davası 2026: Yapay Zeka Liderliğini Sarsan Hukuki Savaşın İçyüzü

2026'da AI Güvenliği: Amazon Nova 2, MLCommons AILuminate ile İçerik Moderasyonunu Test Ediyor

2026 Yılında Elon Musk OpenAI Davasını Kaybetti: Jüri Zaman Aşımını Uyguladı