Qwen 3.5 Kodlama Testlerinde Çöktü: Gerçek Projelerde GPT-5.3 Codex'ten Daha Zayıf

Qwen 3.5, Gerçek Kod Projelerinde Çöktü: Neden?

Bir yapay zeka modelinin kod yazma yeteneği, sadece bir ‘prompt’a doğru cevap vermesiyle ölçülmez. Gerçek dünyada bir yazılımcı, binlerce satır kodu anlar, bağımlılıkları takip eder, hataları tanır ve mevcut mimariye uygun çözümler üretir. Bu tam da, bir Reddit kullanıcısı tarafından oluşturulan ‘APEX Testing’ adlı benchmark’in ölçmeye çalıştığı şeydi. 70 gerçek GitHub deposunda, gerçek projelerdeki gerçek sorunlar üzerinde test edilen Qwen 3.5 serisi, beklenenden çok daha zayıf bir performans sergiledi — özellikle GPT-5.3 Codex’e kıyasla.

Testler Nasıl Yapıldı? Sadece ‘Prompt-Response’ Değil, Gerçek Bir ‘Ajan’ Sistemi

Önceki testlerde, modellere tüm kod deposu tek bir prompt olarak verilirdi. Bu, hem teknik olarak gerçekçi değildi hem de modelin ‘çok fazla bilgiyi tek seferde sindirmeye’ çalışmasını zorunlu kılıyordu. Bu sefer, test eden araştırmacı, her modeli bir ‘agentic sistem’le çalıştırdı: Model, sadece bir prompt almakla kalmadı, aynı zamanda bir dosya tarayıcı, bir terminal, bir hata ayıklayıcı ve bir kod değişikliği uygulama aracı gibi araçlarla donatıldı. Yani model, kendi başına projeyi keşfetmeli, hangi dosyayı incelemesi gerektiğini karar vermelidir, kodu değiştirmeli ve test etmelidir. Bu, tam olarak OpenAI’nin Codex veya Anthropic’ın Claude Code gibi bulut tabanlı kodlama ajanlarının çalışma biçimiydi.

Bu adil bir karşılaştırma oldu. Artık ‘benchmark maxxing’ (testler için özel olarak optimize edilmiş yanıtlar üretme) etkisi ortadan kalktı. Sonuçlar, Qwen 3.5’in hem küçük hem de büyük varyantlarının — Qwen3.5-7B, Qwen3.5-14B, Qwen3.5-72B — karmaşık kod değişikliklerinde ciddi zorluklar yaşadığını gösterdi. Örneğin, bir React uygulamasında bir bileşenin durum yönetimini değiştirmek isteyen bir görevde, Qwen 3.5 modelleri sıklıkla bağımlılık hatası verdi, fonksiyon çağrılarını yanlış yere yerleştirdi ya da mevcut veri akışını tamamen gözden kaçırdı.

GPT-5.3 Codex Neden Daha İyi?

GPT-5.3 Codex, testlerde 70 görevin %82’sinde başarılı oldu. Qwen 3.5 serisinin en iyi varyantı olan Qwen3.5-72B ise sadece %57’de başarılı oldu. Fark sadece ‘doğru cevap’ değil, ‘doğru süreç’ti. Codex, projenin yapısını anladı, hangi dosyaların ilişkili olduğunu çıkarım yaptı, testlerin hangi kısmını etkileyeceğini tahmin etti ve değişikliği en az riskli şekilde uyguladı. Qwen 3.5 ise sıklıkla ‘kısa yol’ aradı: Kodu yeniden yazdı, mevcut yapıyı yok saydı ya da tamamen yanlış bir çözüm önerdi.

Bu, sadece ‘eğitim verisi’ problemi değil. Qwen 3.5, özellikle Türkçe ve Çince kaynaklarda yoğunlaştırılmış bir eğitim alırken, İngilizce teknik dokümanlar, açık kaynaklı projeler ve gerçek dünya yazılım kültürünün derinliklerine daha az maruz kaldı. Codex ise, GitHub’ın milyonlarca gerçek repo’su üzerinde, özellikle İngilizce yazılım topluluğunun en karmaşık ve en çok kullanılan kütüphaneleriyle eğitildi. Bu, sadece veri miktarı değil, veri kalitesi ve bağlamı farkı.

Yerel Modellerin Kaderi: LM Studio’da Çalışanlar Daha mı Zayıf?

Testlerde, LM Studio üzerinde çalışan kuantize edilmiş (daha hafif) yerel modeller de dahil edildi. Bu modeller, Qwen 3.5’in tam sürümlerinden bile daha kötü performans gösterdi. Ancak burada dikkat çekici bir nokta: Hafif modellerin bile, agentic sistemle çalıştırıldığında, eski yöntemlere göre %30 daha iyi sonuçlar verdi. Bu, modelin boyutundan çok, çalışma mantığı’nın daha önemli olduğunu gösteriyor. Yani, küçük bir model bile, doğru araçlarla ve doğru süreçle çalıştırıldığında, büyük bir modelden daha akıllıca davranabilir.

Ne Anlama Geliyor Bu?

Qwen 3.5’in bu başarısızlığı, sadece bir modelin zayıflığı değil, tüm açık kaynak kodlama modellerinin temel bir sorununu ortaya koyuyor: Gerçek dünya yazılımının karmaşıklığına adapte olma yeteneği. Kodlama, sadece sözdizimi değil, bağlam, mimari, tarih ve topluluk normlarıdır. Qwen 3.5, kod yazmayı biliyor ama kodun ‘neden’ yazıldığını anlamıyor.

Bu, geliştiriciler için önemli bir uyarı. ‘En büyük model = en iyi kodlama’ düşüncesi artık geçerli değil. Bir modelin ne kadar iyi çalıştığını anlamak için, sadece ‘Hello World’ üretip üretmediğine değil, bir projenin 30. dosyasında bir hata düzeltip düzeltmediğine bakmak gerek.

Gelecek İçin Ne Yapılmalı?

Bu test, açık kaynak topluluğuna bir yol haritası sunuyor: Gerçek kod deposu üzerinde test etmek, benchmark’lar için tek geçerli yöntem. Qwen 3.5’in başarısızlığı, sadece bir modeli değil, tüm açık kaynak kodlama modellerinin ‘gerçek dünya testi’ne girmesini gerektiriyor. Geliştiriciler, yalnızca ‘code completion’ değil, ‘code understanding’ ve ‘code evolution’ becerilerini ölçen testler geliştirmeli.

Qwen 3.5, bir çok açıdan başarılı bir model. Ancak kodlama alanında, başarı, sadece doğru cevap vermek değil, doğru şeyi, doğru yerde, doğru zamanda yapmaktır. Ve burada, Qwen 3.5 hâlâ yeterli değil.

Yapay Zeka Destekli İçerik

Kaynaklar: www.reddit.com

Qwen 3.5 Gerçek Kod Projelerinde GPT-4o'dan Zayıf Kaldı

Qwen 3.5 Gerçek Kod Projelerinde GPT-4o'dan Zayıf Kaldı

summarize3 Maddede Özet

psychology_altBu Haber Neden Önemli?

Qwen 3.5 Kodlama Testlerinde Çöktü: Gerçek Projelerde GPT-5.3 Codex'ten Daha Zayıf

Qwen 3.5, Gerçek Kod Projelerinde Çöktü: Neden?

Testler Nasıl Yapıldı? Sadece ‘Prompt-Response’ Değil, Gerçek Bir ‘Ajan’ Sistemi

GPT-5.3 Codex Neden Daha İyi?

Yerel Modellerin Kaderi: LM Studio’da Çalışanlar Daha mı Zayıf?

Ne Anlama Geliyor Bu?

Gelecek İçin Ne Yapılmalı?

starBu haberi nasıl buldunuz?

KONULAR:

auto_storiesBunları da Okuyun

2026 LLM Tartışması: Yapay Zeka Öncüleri LeCun ve Hinton Neden Çatıştı?

Sıfır Atışlı Hedef Tanıma: GoalLadder ile Robotik Devrim (2026)

ICRL 2026: Microsoft'un Devrimsel AI'sı Kendi Hatalarını Düzeltmeyi Öğreniyor