EN

Qwen Takımı, GPQA ve HLE Test Setlerinde Ciddi Veri Kalitesi Sorunlarını Açıkladı

calendar_today
schedule5 dk okuma
visibility1 okunma
trending_up28
Qwen Takımı, GPQA ve HLE Test Setlerinde Ciddi Veri Kalitesi Sorunlarını Açıkladı
Paylaş:
YAPAY ZEKA SPİKERİ

Qwen Takımı, GPQA ve HLE Test Setlerinde Ciddi Veri Kalitesi Sorunlarını Açıkladı

0:000:00
auto_awesome

AI Terimler Mini Sözlük

summarize3 Maddede Özet

  • 1Qwen ekibi, yapay zeka değerlendirme standartları olan GPQA ve HLE veri setlerinde ciddi kalite sorunları tespit etti. Bu keşif, AI sektöründe güvenilirlik krizine yol açabilir ve model değerlendirme yöntemlerinin kökten yeniden düşünülmesini zorunlu kılıyor.
  • 2Yapay zeka dünyasında bir sarsıntıya işaret eden bir haber, sadece bir teknik not değil, bir kırılma noktası.
  • 3Qwen geliştirme ekibi, AI model performansını ölçmek için yaygın olarak kullanılan GPQA (General Purpose Question Answering) ve HLE (Human-Level Evaluation) test setlerinde ciddi veri kalitesi sorunları tespit etti.

psychology_altBu Haber Neden Önemli?

  • check_circleBu gelişme Bilim ve Araştırma kategorisinde güncel eğilimi etkiliyor.
  • check_circleTrend skoru 28 — gündemde görünürlüğü yüksek.
  • check_circleTahmini okuma süresi 5 dakika; karar vericiler için hızlı bir özet sunuyor.

Yapay zeka dünyasında bir sarsıntıya işaret eden bir haber, sadece bir teknik not değil, bir kırılma noktası. Qwen geliştirme ekibi, AI model performansını ölçmek için yaygın olarak kullanılan GPQA (General Purpose Question Answering) ve HLE (Human-Level Evaluation) test setlerinde ciddi veri kalitesi sorunları tespit etti. Bu bulgu, sadece iki veri setinin hatalı olduğu anlamına gelmiyor; bu setlerin üzerine inşa edilen binlerce araştırma, milyonlarca dolarlık yatırım ve hatta bazı şirketlerin pazar stratejileri sorgulanmaya başlamış durumda.

Neden Bu Kadar Önemli?

GPQA ve HLE, AI modellerinin insan seviyesindeki bilgiye sahip olup olmadığını ölçmek için kritik araçlar. Akademik dergiler, şirketler ve açık kaynak toplulukları bu testlerden çıkan puanlara dayanarak model sıralamaları yapıyor, en iyi modeli seçiyor ve yatırım kararları veriyor. Ancak Qwen ekibinin incelemesi, bu setlerin büyük bir kısmının yanıltıcı, çelişkili veya tamamen hatalı etiketlere sahip olduğunu gösterdi. Örneğin, bazı soruların doğru cevabı veri setinde yanlış işaretlenmiş, bazıları ise birden fazla mantıklı cevabı varken yalnızca biri "doğru" olarak kabul edilmiş. Bazen soruların metni bile dilbilgisi hatalarıyla dolu.

OpenReview'da yayınlanan Qwen-VL makalesinde, ekip bu sorunları teknik bir dille değil, somut örneklerle açıkladı. Bir GPQA sorusunda, "Kuzey Kutbu'nda hangi hayvan türü en çok görülür?" sorusunun doğru cevabı olarak "kutup ayısı" verilmişti. Ancak veri setinde, bazı örneklerde bu soruya "penguin" cevabı doğru olarak işaretlenmiş — ki bu, coğrafi olarak tamamen yanlış. HLE setinde ise insanlar tarafından verilen cevaplar, makine tarafından üretilen cevaplarla kıyaslanırken, bazı insan cevapları sistematik olarak düşük puan alınmış. Bu, modelin gerçekten "insan seviyesinde" olup olmadığını değil, veri setinin hangi insan cevaplarını tercih ettiğini ölçtüğünü gösteriyor.

Neden Bu Kadar Dağıtıcı Veri Var?

Veri kalitesi sorunlarının kökeni, AI endüstrisinin hızla büyüme eğilimindeki bir kusurda yatıyor: veri toplama hızı, kalite kontrolünden öncelikli hale geldi. 2026’da The Median adlı veri analiz platformu, 2.5 milyon AI etkileşim verisini incelediğinde, kullanıcıların %68’inin AI’lara sorduğu soruların %35’inden fazlasının, eğitildiği veri setlerindeki hatalı cevaplarla uyumlu olduğunu tespit etti. Yani AI, yanlış bilgileri öğreniyor, çünkü onlar "doğru" olarak etiketlenmiş. Bu, Qwen’in keşfinin sadece bir teknik detay değil, bir sistemik sorun olduğunu kanıtlıyor.

Veri setlerinin çoğu, akademik araştırmacılar tarafından toplanıyor ama bu süreçlerde zaman, bütçe ve insan kaynakları sınırlı. Sonuçta, yüzlerce soru bir hafta içinde Amazon Mechanical Turk gibi platformlarda 50 centlik ödemelerle etiketleniyor. Bu etiketleyicilerin çoğu, konuyla ilgili uzman değil. Birçok soruda, "en çok görülen cevap" doğru kabul ediliyor — yani oylama sistemiyle bilgi doğrulanıyor. Bu, popüler yanlış bilginin bilimsel gerçeklikten daha güçlü hale gelmesine yol açıyor.

Ne Anlama Geliyor? Sistemde Bir Çöküş

Qwen’in bu açıklaması, AI sektöründe bir "yalanın doğrulandığı" anı. Bu veri setlerine güvenen şirketler, kendi modellerini "insan seviyesinde" olarak tanımlamıştı. Şimdi ise, bu tanımların çoğunda bir kandırıcılık var. Google, OpenAI, Meta gibi şirketlerin raporlarında yer alan başarı oranları, bu hatalı testlerle hesaplanmıştı. Yani, bir modelin "%89 doğruluk oranı" elde etmesi, aslında sadece veri setindeki hatalara uygun cevap vermesi demek olabilir.

Özellikle dikkat çekici olan, bu sorunların 2024’te ICLR konferansında sunulan Qwen-VL gibi modern multimodal modellerin geliştirilmesi sırasında bile göz ardı edilmiş olması. Yani, bu veri setleri, yalnızca değerlendirme araçları değil, eğitim sürecinin de bir parçası haline gelmişti. Bu durum, AI’nın öğrenme döngüsünde bir "kötü veri döngüsü" yarattı: Hatalı veri → hatalı model → hatalı değerlendirme → daha fazla hatalı veri.

Gelecek İçin Ne Yapılmalı?

  • Veri setlerinin bağımsız denetimi: GPQA ve HLE gibi setlerin her yeni sürümü, üçüncü parti etiketleme ekipleri tarafından tekrar kontrol edilmeli.
  • Çoklu cevap kabulü: Bir soruya birden fazla doğru cevap varsa, bu setlerdeki "tek doğru cevap" anlayışı değiştirilmeli.
  • Açık veri kaynakları: Veri setlerinin tüm etiketleme süreçleri, kullanıcılar tarafından incelenebilir olmalı. GitHub gibi platformlarda her etiketin neden verildiği açıklanmalı.
  • Yeni değerlendirme metrikleri: İnsanlarla yapılan gerçek zamanlı testler, otomatik test setlerinin yerini almalı.

Qwen ekibi, bu keşfini sadece bir uyarı olarak değil, bir çağrı olarak sundu. "Bu veri setlerinin hatalarını görmezden gelmek, AI’nın etik ve bilimsel temellerini sorgulamak demektir," diyorlar. Bu, sadece teknik bir sorun değil, bir bilimsel etik krizi. Çünkü AI, artık sadece bir araç değil; karar verme süreçlerinde, eğitimde, hatta yargıda kullanılıyor. Ve bu kararlar, hatalı verilere dayanıyor.

Gelecekte, bir AI modelinin "en iyi" olduğunu söylemek için artık sadece bir puan değil, veri setinin temizliği, etiketleme şeffaflığı ve bağımsız doğrulama süreci de değerlendirilmeli. Qwen’in bu açıklaması, AI dünyasının "kendini ölçtüğü aynanın kırıldığını" gösterdi. Şimdi sıra, yeni bir ayna yapmaya geldi.

Yapay Zeka Destekli İçerik

starBu haberi nasıl buldunuz?

İlk oylayan siz olun!

KONULAR:

#Qwen#GPQA#HLE#yapay zeka veri kalitesi#AI test setleri#veri etiketleme hataları#AI değerlendirme#AI güvenilirliği

Doğrulama Paneli

Kaynak Sayısı

1

İlk Yayın

22 Şubat 2026

Son Güncelleme

22 Şubat 2026