Yapay Zeka Kodlama Yetenekleri Test Edildi: 65 Gerçek Proje, ELO Sıralaması ve Şok Sonuçlar

Yapay zekanın kod yazma yeteneği, son yıllarda teknoloji dünyasında bir ilan gibi duyuldu. ChatGPT, Claude, Gemini ve diğer büyük modeller, basit fonksiyonlar yazarken hatta test senaryoları oluştururken bile şaşırtıcı performanslar sergiledi. Ancak bu başarılar, gerçek dünyadaki yazılım mühendislerinin yaşadığı karmaşıklıkların ötesinde mi? Yoksa sadece eğitim verilerindeki örüntüleri taklit ediyor mu? Bu sorulara cevap arayan, bir grup araştırmacı, FeatureBench adını verdiği tamamen yeni bir değerlendirme sistemi geliştirdi — ve sonuçlar, sektörü sarsıyor.

Gerçek Kod Tabanlarında Sınav: 65 Görev, 0 Simülasyon

FeatureBench, arXiv’de 12 Şubat 2026 tarihinde yayınlanan bir çalışmada tanıtıldı. Bu benchmark, önceki testlerin aksine, GitHub’dan alınmış 12 farklı açık kaynak projesindeki gerçek kod tabanları üzerinde çalıştı. Örnekler arasında Kubernetes’in servis yapılandırması, Rust ile yazılmış bir veritabanı motoru, Python tabanlı bir mikroservis altyapısı ve JavaScript ile geliştirilen bir gerçek zamanlı veri akışı sistemi yer alıyor. Her bir proje, yazılımcıların günlük hayatta karşılaştığı karmaşık görevlerle test edildi: bir hata düzeltmek, yeni bir API eklemek, performansı optimize etmek, ya da mevcut bir modülü başka bir teknolojiyle entegre etmek.

Her görev, gerçek bir geliştiricinin yapacağı adımları taklit edecek şekilde tasarlandı: kodu okumak, dokümantasyonu analiz etmek, testleri çalıştırmak, değişiklikleri öngörmek ve sonucu bir pull request olarak sunmak. Bu, yalnızca bir fonksiyon yazmakla kalmıyor; bir kod tabanının mantığını anlamak, ekibin stilini takip etmek ve teknik borçları göz önünde bulundurmak anlamına geliyor.

ELO Sıralaması: AI’lar Bir Turnuvada Yarıştı

FeatureBench’in en yenilikçi yönü, sonuçların ELO sıralama sistemiyle değerlendirilmesiydi. Bu sistem, satrançta oyuncuların performansını ölçmek için kullanılan bir yöntem. Burada, her AI modeli, diğer modellerle çiftleşerek 65 görevde yarıştı. Her görevde, insan değerlendirmeciler — gerçek yazılımcılar — hangi çözümün daha iyi olduğunu belirledi. Kazanan, 1 puan, kaybeden 0 puan aldı; beraberliklerde ise 0.5 puan verildi.

Sonuçlar şaşırtıcı: GPT-4o ve Claude 3.5 Sonnet gibi öne çıkan modeller, sadece ortalama %58’lik bir başarı oranı elde etti. GPT-4-turbo, 65 görevde sadece 37’de %90+ kaliteyle sonuç üretti. Gemini 1.5 Pro ise, bir veritabanı şemasını değiştirmek zorunda kaldığı bir görevde, tüm referans verilerini sildi — ve bu hatayı düzeltmek için insan bir mühendis 3 saat harcadı. En iyi performansı gösteren model bile, 10 görevde tamamen başarısız oldu: kodu yazdı ama testleri çalıştıramadı, ya da bir bağımlılığı yanlış güncelledi ve tüm sistemi kırdu.

Neden Bu Kadar Zor? Yapay Zekanın Gerçek Dünya Açısı

FeatureBench’in ortaya koyduğu temel gerçek, AI’ların kod yazma konusunda “kopyala-yapıştır” yeteneklerine sahip olmaları, “anlama” yeteneğine sahip olmaları anlamına gelmiyor. Bir AI, bir fonksiyonun ne yaptığını anlayabilir ama, o fonksiyonun hangi modülde, hangi testlerle, hangi yapısal kurguyla ilişkili olduğunu anlamaz. Örneğin, bir model, bir API’ye yeni bir parametre eklemeyi başarabilir ama bu parametrenin, başka bir servisin 3 ay önceki bir sürümünde zaten kullanıldığını fark edemez — ve bu nedenle bir geriye dönük uyumsuzluk yaratır.

Yazılım mühendisliği, yalnızca doğru sözdizimini kullanmak değil; bir sistemin dinamik yapısını, ekibin kararlarını, geçmiş hataları ve gelecek risklerini tahmin etmek demektir. FeatureBench, AI’ların bu “kod kültürü”nü tamamen dışlamış olduğunu gösteriyor. Bu, teknoloji şirketlerinin AI’ları “kod asistanı” olarak kullanma planlarını yeniden gözden geçirmesini gerektiriyor. “AI, kod yazmaz — AI, kodun nasıl yazıldığını anlayan insanlara yardımcı olur,” diyor Stanford’dan Dr. Elif Yılmaz, çalışmada yer almayan ancak bulguları inceleyen bir yazılım psikolojisi uzmanı.

Gelecek İçin Uyarı: Otomasyon Değil, Ortaklık

FeatureBench, AI’ların yazılım geliştirme sürecinde tamamen yerini almayacağını, ama insan mühendislerin işini çok daha zor hale getireceğini ima ediyor. Artık bir geliştirici, yalnızca kod yazmakla kalmayacak; bir AI’nın ürettiği çözümü değerlendirmek, düzeltmek ve teknik olarak sorumlu olmak zorunda kalacak. Bu, “AI hata yaparsa kim sorumlu?” sorusunu gündeme getiriyor.

Yazılım endüstrisi, AI’ları “otomatikleştirici” olarak değil, “kodun anlamını yorumlayan ortak” olarak görmeyi öğrenmeli. FeatureBench, sadece bir test değil, bir çağrı: Gerçek dünyada kodlama, bir dil değil, bir sanattır. Ve şu an için, bu sanatın en büyük ustası hâlâ insan.

FeatureBench, 65 gerçek proje ve 12 açık kaynak kod tabanı üzerinde test edildi.
AI modelleri, ELO sistemiyle kıyaslanarak, sadece %58 ortalama başarı oranına sahip.
En iyi modeller bile, bağımlılık yönetimi ve sistem bütünlüğü gibi temel mühendislik görevlerinde başarısız oldu.
İnsan mühendislerin rolü, artık “kod yazıcı” değil, “AI denetleyici” ve “kod anlamlandırıcı” olarak değişiyor.

Yapay Zeka Destekli İçerik

Kaynaklar: www.vvdailypress.com • arxiv.org

Yapay Zeka Kodlama Yetenekleri Test Edildi: 65 Gerçek Proje, ELO Sıralaması ve Şok Sonuçlar