EN

Codex 5.3 SOTA kırdı ama genel performans düştü:

calendar_today
schedule4 dk okuma
visibility25 okunma
trending_up9
Codex 5.3 SOTA kırdı ama genel performans düştü:
Paylaş:
YAPAY ZEKA SPİKERİ

Codex 5.3 SOTA kırdı ama genel performans düştü:

0:000:00

summarize3 Maddede Özet

  • 1LiveBench’in yeni test sonuçlarına göre OpenAI’nin Codex 5.3, agentic kodlama alanında rekor kırarken, genel akıl yürütme ve matematik gibi temel becerilerde geriledi. Bu çelişki, AI sistemlerinin ‘uzmanlaşırken unutma’ sorununu ortaya koyuyor.
  • 2Codex 5.3 SOTA’ya ulaştı ama genel performans düştü: LiveBench’in sırıttığı gerçek LiveBench, yapay zekâ dünyasının en titiz ve kirli veriden arınmış benchmark’larından biri olarak, her ay yeni sorularla test setlerini güncelleyen bir sistem.
  • 3Bu ay, OpenAI’nin Codex 5.3 modeli, agentic kodlama (yani kendini yönlendiren, planlayan ve hata düzeltmeli kod üretme) alanında yeni bir SOTA (state-of-the-art) rekoru kırdı.

psychology_altBu Haber Neden Önemli?

  • check_circleBu gelişme Yapay Zeka Modelleri kategorisinde güncel eğilimi etkiliyor.
  • check_circleTrend skoru 9 — gündemde görünürlüğü yüksek.
  • check_circleTahmini okuma süresi 4 dakika; karar vericiler için hızlı bir özet sunuyor.

Codex 5.3 SOTA’ya ulaştı ama genel performans düştü: LiveBench’in sırıttığı gerçek

LiveBench, yapay zekâ dünyasının en titiz ve kirli veriden arınmış benchmark’larından biri olarak, her ay yeni sorularla test setlerini güncelleyen bir sistem. Bu ay, OpenAI’nin Codex 5.3 modeli, agentic kodlama (yani kendini yönlendiren, planlayan ve hata düzeltmeli kod üretme) alanında yeni bir SOTA (state-of-the-art) rekoru kırdı. Ancak bu zafer, bir tür bilimsel şokla eşlik ediyor: Codex 5.3, matematiksel akıl yürütme, doğrudan soru-cevap ve veri analizi gibi temel kategorilerde önceki sürümlerine göre ciddi bir regresyon gösterdi. Bu, yalnızca bir modelin geliştiğini değil, aynı zamanda AI sistemlerinin ‘uzmanlaşırken unutma’ (specialization-induced amnesia) riskini de kanıtlıyor.

Ne oldu? Codex 5.3, agentic kodlamada rekor kırarken diğer alanlarda geriledi

LiveBench’in resmi liderlik tablosuna göre (llm-stats.com, 2025), Codex 5.3, agentic coding kategorisinde %87.3 başarı oranı ile birinci oldu. Bu, önceki rekor olan Claude 3.5 Sonnet’in %82.1’ini geçti. Ancak aynı model, matematiksel problemler için %61.2 puan aldı — bu, Codex 5.2’nin %68.9’undan daha düşük. Benzer şekilde, doğrudan soru-cevap (direct QA) ve veri analizi alanlarında %5.7 ve %4.3’lük düşüşler kaydedildi. Bu, yalnızca bir hata değil, sistematik bir yönelim. Model, kod üretme görevlerinde daha çok ‘yapay bir programcı’ gibi davrandı, ancak temel mantıksal çıkarımlarda ‘düşünme’ yeteneğini kaybetti.

Neden oldu? Kapsamlı testlerde gizli bir eğilim

LiveBench’in temel özelliği, test setlerinin ‘kirlenmemiş’ olması. Yani, modellerin eğitim verilerindeki örneklerle çakışan sorular yok. Tüm sorular, son 30 günde arXiv’de yayımlanan makalelerden, GitHub’daki yeni repolardan veya IMDb senaryolarından alınarak oluşturuluyor. Bu, modelin ‘ezberlemesi’ yerine gerçek anlama ve genelleme yeteneğini ölçüyor.

Analizler, Codex 5.3’ün agentic kodlama için özel olarak optimize edildiğini gösteriyor. OpenAI, bu sürümde kod üretme süreçlerini daha çok ‘planlama-çalışma-geri bildirim’ döngüsüne odakladı. Model artık, bir fonksiyonun ne işe yaradığını anlamak yerine, hangi kütüphaneleri kullanacağını, hangi test senaryolarını yazacağını ve hataları nasıl düzelteceğini önceden tahmin edebiliyor. Bu, geliştiriciler için harika bir ilerleme. Ancak bu odaklanma, diğer becerileri zayıflattı. Örneğin, bir matematiksel ispatı adım adım çıkarmak yerine, kod üretme moduna geçerek ‘yaklaşık’ bir çözüm üretmeye başladı. Bu, teknik olarak ‘çözüm’ veriyor gibi görünse de, doğru mantık zincirini bozuyor.

Ne anlama geliyor? AI’da ‘uzmanlaşma’ tehlikesi

Bu durum, AI endüstrisindeki bir trendi yansıtır: Her şirket, kendi özel görevlerinde (özellikle kodlama ve veri işleme) rekor kırmak için modelleri ‘yönlendiriyor’. Sonuçta, model ‘çok iyi’ oluyor ama ‘çok iyi’ olduğu alan dışında kırılgan hale geliyor. Bu, insanlarda da görülen bir fenomen: Bir avukat, hukukta mükemmel olabilir ama basit bir matematiksel hesaplamada hata yapabilir.

LiveBench’in bu sonuçları, AI geliştiricilerine önemli bir uyarı: Sadece bir kategoride rekor kırmak, genel yetkinlik anlamında başarı değildir. Özellikle agentic sistemler — yani kendi başına görevleri planlayan, hataları düzeltmeyi öğrenen modeller — için, temel akıl yürütme becerileri kaybedilirse, sistemler ‘kod üretiyor’ gibi görünse de, aslında hatalı bir mantıkla hareket ediyor olabilir. Bu, üretim ortamlarında ciddi güvenlik riski yaratabilir.

Gelecek nerede? Denge arayışı

LiveBench ekibi, bu çelişkiyi fark etti ve yeni bir ‘Breadth vs Depth’ metriği geliştirmeye başladı. Bu metrik, bir modelin hem geniş (broad) hem de derin (deep) becerilerini aynı anda ölçer. İlk testlerde, Anthropic’un Claude 3.5 Sonnet, Codex 5.3’ten daha dengeli bir performans sergiledi — agentic kodlamada biraz geride kalmasına rağmen, matematik ve mantıkta daha tutarlıydı.

Öte yandan, açık kaynak modelleri (OpenAI’nin kapalı modeliyle rekabet edenler) bu durumdan büyük bir avantaj sağlıyor. Mistral 7B ve Llama 3.1 gibi modeller, özellikle kodlama görevlerinde daha düşük performans gösterse de, genel akıl yürütme testlerinde Codex 5.3’ten daha iyi sonuçlar verdi. Bu, ‘kapsamlı zeka’ ile ‘uzmanlaşmış zeka’ arasındaki farkı netleştiriyor.

Yapay zekânın geleceği, sadece bir işi daha iyi yapmak değil, aynı anda birçok işi doğru yapabilmekle ilgili. Codex 5.3’in rekoru, bir zafer değil, bir uyarı. Teknoloji, artık sadece ‘yapabiliyor’ değil, ‘ne kadar dengeli yapıyorsun?’ diye soruyor. Ve bu sorunun cevabı, geleceğin en büyük AI şirketlerini belirleyecek.

Yapay Zeka Destekli İçerik

starBu haberi nasıl buldunuz?

İlk oylayan siz olun!

auto_storiesBunları da Okuyun

Yapay Zeka Modelleri Haberleriarrow_forward