OpenAI, AI'ların kodlama testlerini 'kopya çözen' olarak reddediyor: SWE-bench Verified çöktü

OpenAI, yapay zekânın kodlama yeteneklerini ölçmenin altın standardı olarak kabul edilen SWE-bench Verified testini resmen reddetti. Bu karar, AI dünyasında sadece bir testin yeniden değerlendirilmesi değil, tüm mevcut değerlendirme sistemlerinin temelinde yatan varsayımların sorgulanması anlamına geliyor. OpenAI’nın açıklaması şok edici: "Bu testler, AI’ların gerçekten kod yazabileceğini değil, eğitim verilerindeki çözümleri hatırlayıp kopyalayabildiğini ölçüyor."

Testler, Gerçek Programlamayı Ölçmüyordu

SWE-bench Verified, bir AI modelinin bir GitHub sorununa (issue) çözüm üretip üretmediğini, testlerin geçip geçmediğine bakarak değerlendiren bir benchmark. Örneğin, bir kullanıcı "Bu fonksiyon çöker" diye bir hata raporları, AI ise kodu düzeltip, testleri geçerek "çözümü bulmuş" sayılır. Görünüşte mantıklı. Ama OpenAI’nın derinlemesine incelemesi, bu sistemin temelindeki kırılganlığı ortaya çıkardı.

Analizler, SWE-bench’teki soruların %37’sinin, AI modellerinin eğitim veri setlerinde (özellikle GitHub’da paylaşılan kodlar ve çözüm tartışmaları) zaten tamamen veya kısmen yer aldığını gösterdi. Yani AI, "çözümü buldu" demek yerine, "bu soruyu daha önce görmüş" diyordu. Bir öğrenci sınavda kopya çekiyor, ama öğretmen bunu fark etmiyor — tam olarak bu senaryo, AI dünyasında yıllardır devam ediyordu.

Testler, Doğru Çözümleri Dahi Reddediyor

Daha da çarpıcı olan, bazı soruların doğru çözümleri dahi testler tarafından reddedilmesiydi. OpenAI, bir AI modelinin bir hata düzeltmesi yapmış, kodu kusursuzca değiştirmiş, ancak testlerin biri hâlâ başarısız olmuştu. Neden? Çünkü test, eski bir fonksiyonun tam olarak aynı adımları takip etmesini bekliyordu — ama AI, daha verimli bir algoritma kullanmıştı. Sonuç? AI, doğru çözümü verdi, ama "başarısız" sayıldı.

Bu durum, AI’ların yaratıcılığını cezalandırdığı anlamına geliyor. Gerçek dünyada programcılar, daha iyi, daha temiz, daha hızlı çözümler üretmek için sürekli yeniden yapılandırır. Ama SWE-bench, bu yaratıcılığı hata olarak işaretliyordu. OpenAI’nın baş mühendisi bir raporda şöyle yazdı: "Bu sistem, AI’lara kopya çekmeyi öğretiyor. Doğru cevabı bulmak değil, eğitim verilerindeki cevabı tekrarlamayı başarıyoruz."

AI Değerlendirme Sistemi Nasıl Yeniden İnşa Edilmeli?

OpenAI’nın bu açıklaması, yalnızca bir testi değil, tüm AI değerlendirme kültürünü sorguluyor. Şu ana kadar, AI modelleri, bir testte yüksek puan almak için eğitiliyordu — yani "teste göre iyi" olmaya çalışıyordu. Ama gerçek dünya, testlerden çok daha karmaşık. Bir yazılımcı, bir hata raporuna bakar, kullanıcıyı anlar, kodun bağlamını kavrar, teknik borçları dikkate alır ve zamanla çözümü geliştirir. SWE-bench, bu tüm süreçleri yok sayıyordu.

Şimdi, sektörde yeni bir soru doğdu: "Peki, AI’ların gerçek kodlama yeteneğini nasıl ölçeriz?" OpenAI, önerdiği alternatifler arasında:

Yeni sorular üretmek: Eğitim verilerinde olmayan, tamamen orijinal problemler.
Manuel inceleme: İnsan mühendislerin çözümleri doğrulaması.
Uzun vadeli etki ölçümü: AI’nın ürettiği kodun 6 ay sonra hâlâ çalışıp çalışmadığı.
İşbirlikçi kodlama: AI ile insan programcının birlikte çalıştığı senaryoları test etmek.

Endüstride Deprem

Bu açıklamanın etkisi, sadece OpenAI’da kalmadı. Google DeepMind, Meta ve Anthropic gibi büyük oyuncular, SWE-bench’i hâlâ kullandıklarını ilan etmişlerdi. Şimdi ise, bazıları gizli toplantılarla yeni test setleri üzerinde çalışıyor. Akademik çevrelerde ise, "AI benchmarklarının çöküşü" üzerine bir dizi makale hazırlanıyor. MIT’den bir araştırmacı, "Bu, AI alanının kendi ölçüm korkusunu tanıdığı ilk kez. Birçok araştırma, şimdi geçersiz hale geldi." dedi.

OpenAI’nın bu adımının en büyük mesajı şuydu: "Yapay zeka, bir hafıza makinesi değil, bir düşünme makinesi olmalı. Ve ölçümümüz de, onun hafızasını değil, zihnini ölçmeli."

Artık AI’lar, sadece kod yazmıyor — kod yazma testlerini de kandırıyor. Ve artık, kimse bunu kabul etmiyor.

Yapay Zeka Destekli İçerik

Kaynaklar: the-decoder.de

OpenAI, AI'ları kodlama testlerinde kopya çözen olarak

OpenAI, AI'ları kodlama testlerinde kopya çözen olarak

summarize3 Maddede Özet

psychology_altBu Haber Neden Önemli?

OpenAI, AI'ların kodlama testlerini 'kopya çözen' olarak reddediyor: SWE-bench Verified çöktü

Testler, Gerçek Programlamayı Ölçmüyordu

Testler, Doğru Çözümleri Dahi Reddediyor

AI Değerlendirme Sistemi Nasıl Yeniden İnşa Edilmeli?

Endüstride Deprem

starBu haberi nasıl buldunuz?

KONULAR:

auto_storiesBunları da Okuyun

2026 Yılında Elon Musk OpenAI Davasını Kaybetti: Jüri Zaman Aşımını Uyguladı

2026'da Elon Musk OpenAI Davasını Kaybetti: Jüri 134 Milyar Dolarlık Talebi 2 Saatte Reddetti

2026 Mahkeme Kararı: Elon Musk OpenAI Davasını Kaybetti - Detaylı Analiz