SWE Bench-Verified’in Son 20%'i Neden Çözülemiyor? Derinlemesine Bir Analiz

Neden Bu 20% Kaldı?

Yapay zeka dünyasında, SWE Bench-Verified adlı test seti, bir modelin gerçek dünyadaki yazılım geliştirme becerilerini ölçmenin altın standardı haline geldi. Bugün, en ileri modeller %80’den fazla soruyu doğru çözebiliyor. Ama kalan %20… o %20, bir karanlık bölgede takılı kalıyor. Yavaş. Sessiz. Ve neredeyse hiç incelenmiyor.

Bu son 20%, sadece bir teknik engel değil. İnsanların beklentileriyle, veri toplama yöntemleriyle ve hatta akademik araştırmaların öncelikleriyle ilgili derin bir çatışmanın gölgesinde yatıyor. Birçok uzman, bu kalan kısmı ‘kötü niyetli testler’ olarak hafife alıyor. Ama aslında, bu 20% — tam da o 20% — yapay zekanın gerçek sınırlarını gösteriyor.

İnsanların Bıraktığı Yerler

İlk bakışta, bu oranın düşük çözüm hızı ‘veri eksikliği’ olarak açıklanıyor. Ama bu yeterli değil. Gerçekten de, bu soruların çoğu, GitHub’dan veya açık kaynak projelerden toplanmış kod örneklerine dayanıyor. Peki neden bu örneklerden yeterince bulunamıyor?

Çünkü bu %20’lik kısım, ‘kötü yazılmış kodlar’, ‘belgelenmemiş eski sistemler’, ‘tutarlı olmayan API’ler ve ‘topluluk tarafından unutulmuş teknolojiler’le ilgili. Yani, teknik olarak zor değil — insani olarak yoksun. Bu soruları çözmek için, sadece bir modelin kod okuma yeteneği değil, bir yazılımcının 10 yıl önceki bir projeye dair duygu, bağlam ve kafa karışıklığını anlama kapasitesi gerekir. Ve şu anki modeller, bu ‘duygusal arka planı’ okuyamıyor.

Arka Planda Sessiz Kalan Uzmanlar

Bu %20’lik alan, aslında insanlar tarafından terk edilen yerler. Bir yazılımcı, bir hata ile uğraşırken, bir sistemdeki eski bir kütüphane nedeniyle 3 gün geçirdiğinde, o deneyimi bir veri setine dönüştürmez. O deneyim, bir blog yazısında, bir Slack mesajında, bir kahve molasında söylenen bir fısıltıda kalır. Ama makine öğrenimi, fısıltıları öğrenemez. Sadece kaydedilenleri okur.

Bu yüzden, bu 20% — aslında — ‘insan bilgisi eksikliği’dir. Uzmanlar, bu soruları çözmek için ‘kod okuma’ değil, ‘kod tarihi okuma’ yapmak zorunda kalıyor. Bir model, bir fonksiyonun ne yaptığını bilebilir. Ama neden o fonksiyonun yazarının 2018’de bu şekilde yazdığını, neyi korktuğunu, hangi yönetim baskısı altında olduğunu… bilemez.

Yapay Zekanın Gerçek Sınırı: İnsanlık

Medium ve Politico gibi kaynaklarda erişim hatası alındıysa da, bu durum bir simge. Gerçek uzmanlar — özellikle küçük kuruluşlarda, eski sistemleri sürdürenler, teknik borçları ödemekle uğraşanlar — sessizce çalışıyor. Onların deneyimleri, akademik makalelerde, arşivlenmiş bloglarda, veya açık kaynak projelerde hiç belgelenmiyor. Onlar, SWE Bench-Verified’in ‘kalan 20%’ini çözen gerçek insanlar. Ama kimse onlara ödüllendirme vermiyor. Kimse onların deneyimlerini toplamıyor. Kimse onların ‘korkularını’ veri setine dönüştürmüyor.

Bu durum, The Expert Editor’deki bir makaledeki temel fikirle paralel: “Sen her zaman güçlüydün, ama hiç kimse durduğunu fark etmedi.” Bu 20%, tam da o. Yapay zeka, her şeyi çözebilir gibi görünüyor. Ama kalan kısım, biri yorulduğunda, biri sessizleştiğinde, biri “ben sorun değilim” dediğinde kalan boşluk.

Yapay zeka, bir kod satırını 1000 kez okuyabilir. Ama bir insanın o satırı yazarken ne hissettiğini, neyi tercih ettiğini, neyi terk ettiğini anlayamaz. Bu 20%’lik kısım, teknik bir sorun değil — bir insani sorun. Modelin hatalı olması değil, verilerin insanlığı yeterince yansıtmaması.

Ne Anlama Geliyor?

Eğer yapay zeka, sadece ‘iyi yazılmış kodları’ anlayabiliyorsa, o zaman gerçek dünyadaki yazılım endüstrisindeki en büyük sorunlar — teknik borç, eski sistemler, kusurlu belgeler — onun için görünmez kalır. Bu, bir sürücünün sadece asfaltlı yolları görebilmesi gibi. Oysa gerçek dünya, çamurlu yollar, kırık levhalar ve gölge sokaklardan oluşuyor.

SWE Bench-Verified’in son 20%'si, yapay zekanın ‘yazılım dünyasında’ değil, ‘insan dünyasında’ nasıl çalıştığını gösteriyor. Bu 20%, bir test değil — bir uyarı. Uyarı: Eğer bir model, insanın yorulduğu, unutulduğu, sessiz kaldığı yerleri anlamazsa, o model, gerçek dünyada hiçbir zaman tam anlamıyla faydalı olamaz.

Ne Yapılmalı?

İnsani deneyim veri setleri oluşturun: Yazılımcıların kendi “Neden böyle yaptım?” hikayelerini toplayın.
Esnek testler geliştirin: Sadece doğru cevap değil, çözüm süreci de değerlendirilsin.
Sessiz uzmanları dinleyin: Küçük firmalar, eski sistemlerde çalışanlar, teknik borçla uğraşanlar — onların deneyimleri en değerli veridir.
“Kötü kod”ları eğitimde kutsamayın: Onları bir kusur olarak değil, bir gerçeklik olarak kabul edin.

Yapay zeka, bir gün tüm kodları çözebilir. Ama o zaman bile, insanın “neden”lerini anlamazsa, o çözüm — sadece bir çözüm değil — bir yanıltma olur.

Yapay Zeka Destekli İçerik

Kaynaklar: medium.com • www.politico.com • experteditor.com.au

SWE Bench-Verified’in Son 20%'i Neden Çözülemiyor?