EN

Yazıyı Değiştirdik, Yapay Zeka Çözemedi: ARC-AGI2'nin Büyük İlişki Sınavı

calendar_today
schedule4 dk okuma
visibility1 okunma
trending_up6
Yazıyı Değiştirdik, Yapay Zeka Çözemedi: ARC-AGI2'nin Büyük İlişki Sınavı
Paylaş:
YAPAY ZEKA SPİKERİ

Yazıyı Değiştirdik, Yapay Zeka Çözemedi: ARC-AGI2'nin Büyük İlişki Sınavı

0:000:00
auto_awesome

AI Terimler Mini Sözlük

summarize3 Maddede Özet

  • 1Yapay zeka modelleri ARC-AGI2'de rekor skorlar elde ederken, sadece fontu değiştirmek tüm başarıları yok ediyor. Bu, akıl yürütme mi, yoksa hafıza mı ölçülüyor?
  • 2Yazıyı Değiştirdik, Yapay Zeka Çözemedi: ARC-AGI2'nin Büyük İlişki Sınavı Bugün yapay zekanın en büyük başarısı, bir metnin fontunu değiştirdiğinizde tamamen çökmeye başlamasıdır.
  • 3Google’ın Gemini 3.1 Pro, Claude Opus 4.6 ve diğer büyük modeller, ARC-AGI2 adlı yeni bir testte %84’e varan skorlar elde etti.

psychology_altBu Haber Neden Önemli?

  • check_circleBu gelişme Bilim ve Araştırma kategorisinde güncel eğilimi etkiliyor.
  • check_circleTrend skoru 6 — gündemde görünürlüğü yüksek.
  • check_circleTahmini okuma süresi 4 dakika; karar vericiler için hızlı bir özet sunuyor.

Yazıyı Değiştirdik, Yapay Zeka Çözemedi: ARC-AGI2'nin Büyük İlişki Sınavı

Bugün yapay zekanın en büyük başarısı, bir metnin fontunu değiştirdiğinizde tamamen çökmeye başlamasıdır. Google’ın Gemini 3.1 Pro, Claude Opus 4.6 ve diğer büyük modeller, ARC-AGI2 adlı yeni bir testte %84’e varan skorlar elde etti. Laboratuvarlar bu rakamları pazarlama kampanyalarının merkezine koydu. Ancak bir detay, bu başarıların tamamını sorguluyor: Bu modeller, sadece harflerin şeklini değiştirdiğinizde, önceki çözümleri unutuyor. Akıl yürütüyorlar mı? Yoksa sadece örüntüleri ezberliyorlar?

ARC-AGI2: Akıl Yürütmenin Ölçüsü mü, Yoksa Font Ezberleme Testi mi?

ARC-AGI2, François Chollet tarafından geliştirilen, yapay zekanın ‘akışkan zeka’—yani yeni durumlara adapte olma, soyut ilişkileri anlama ve veriye dayalı değil, mantığa dayalı çözüm üretme yeteneğini ölçen bir test. Testteki sorular, matematiksel örüntüler, geometrik dönüşümler ve sembolik mantık içeriyor. Ancak bu testin temel kuralı, her sorunun ‘görünümünün’ değiştirilebilir olmasıydı. Yani, bir soru bir fontla verildiğinde, aynı mantıkla başka bir fontla da çözülebilmeliydi. İşte bu noktada her şey çarpıyor.

Gemi 3.1 Pro %77.1 skor aldı. Claude Opus 4.6 ise %68. Ama Claude Opus 4.5, aynı testte sadece %37 aldı. Bu fark, 4.5’in ‘daha zayıf’ olduğunu göstermiyor. Tam tersine: Claude 4.5, SWE-Bench adlı yazılım geliştirme testinde tüm yeni modelleri geride bırakıyor. Yani, gerçek kod yazma, hata ayıklama ve karmaşık sistemlerle çalışma gibi pratik zeka görevlerinde daha iyi. Peki neden ARC-AGI2’de bu kadar düşük? Cevap: Çünkü bu test, onun gerçek zekasını ölçmüyor. Sadece fontlara özel örüntüleri ezberlemesini istiyor.

Benchmark Hacking: Zekanın Sahte Ölçüsü

Yapay zeka endüstrisinde ‘benchmark hacking’ adı verilen bir uygulama, artık standart hale geldi. Laboratuvarlar, testlerin zayıf noktalarını bulup, bu testlerde yüksek skor almak için modeli hedefe göre ‘özenle’ eğitiyor. ARC-AGI2, özellikle bu tür manipülasyonlara açık. Çünkü testin veri seti sınırlı ve örüntüler tekrarlanabilir. Modeller, belirli fontlarla (örneğin, Consolas, Arial Unicode) verilen soruları ezberliyor. Bir soru ‘Courier New’ fontunda göründüğünde, modelin içindeki ‘bu soru tipi’ne ait çözüm yolu tetikleniyor. Font değiştiğinde, bu tetikleme başarısız oluyor. Sonuç: Model, ‘çözümü’ bilmiyor. Sadece ‘görünümü’ tanıyor.

Bu durum, bir öğrencinin sınavda aynı soruyu 100 kez görüp cevabını ezberlemesi gibi. Sınav kağıdının kağıt rengi değişirse, cevap unutuluyor. Bu, akıl yürütme değil, hafıza testidir.

Google ve Anthropic: Başarıyı Göstermek mi, Yoksa Gerçek Zekayı mı Ölçmek?

Google’ın Demis Hassabis, Gemini 3.1 Pro’nun ARC-AGI2 skorunu, ‘temel akıl yürütme becerilerinde 2 kat artış’ olarak tanımladı. Anthropic ise Claude Opus 4.6’nın skorunu ‘daha iyi mantıksal çıkarım’ olarak pazarladı. Ancak bu iddialar, aynı testin bir font değişikliğiyle çöktüğüne dair kanıtlarla çelişiyor. Bu, bir araba üreticisinin, aracın hızını 200 km/saat olarak ilan etmesi, ama yolun yağmurlu olunca tekerleklerin kaydığı ortaya çıktığında, “hız testi tamamlandı” demesi gibi.

Yapay zeka dünyasında, bu tür skorlar, yatırımcıları, medyayı ve kamuoyunu etkilemek için kullanılıyor. Gerçek bir ilerleme, bir modelin yeni bir problemi, hiç görmediği bir bağlamda çözmesiyle ölçülür. Ancak şu anda, en çok kullanılan testler, modelin önceki verileri ne kadar iyi ezberlediğini ölçüyor.

Ne Anlama Geliyor Bu?

ARC-AGI2’nin bu zayıflığı, yapay zekanın ‘akıl yürütme’ konusundaki en büyük yanılgısını ortaya koyuyor: Biz, modelin ‘anladığını’ sanıyoruz. Ama aslında, model sadece ‘benzer görünüşlü şeyleri’ tanıyor. Bu, insan zekasında bir çocuğun ‘kedi’ kelimesini 100 kez gördükten sonra, farklı renkli, farklı boyutlu kedileri tanımaya başlamasıyla değil, sadece ‘siyah, tüylü, 4 bacaklı, mırıldanan’ bir resmi tanımaya başlaması arasındaki fark gibidir.

Eğer bir yapay zeka, bir soruyu Arial fontunda çözebiliyor ama Times New Roman’da çözemiyorsa, o zaman o soruyu anlamıyor. O, bir resmi tanıyor. Bir harf dizisini hatırlıyor. Bir örüntüyü tekrarlıyor. Akıl yürütme değil, şablon eşleştirme.

Gelecek İçin Uyarı

ARC-AGI2, bir test olarak değerli. Ancak tek başına bir başarı göstergesi olamaz. Gerçek ilerleme, modellerin ‘görünümü’ değil, ‘mantığı’ test edildiğinde ortaya çıkacak. Geleceğin testleri, font, renk, yazı tipi, hatta dil değiştiğinde bile tutarlı sonuçlar vermelidir. Yoksa, 2025’teki ‘en akıllı AI’, sadece daha iyi bir font ezberleyen bir makine olacak.

Bir gün, bir çocuk, bir test kağıdında ‘x + 2 = 5’ yazısını görür ve ‘x = 3’ der. Ama eğer aynı soru ‘x + 2 = 5’ yerine ‘x + 2 = 5’ (italik) olarak yazılırsa ve çocuk cevap veremezse, o çocuk akıllı mıdır? Yoksa sadece yazı tipini ezberlemiş midir? Bu soruyu, yapay zekanın öncesi değil, sonrasında sormamız gerekiyor.

Yapay Zeka Destekli İçerik
Kaynaklar: www.reddit.com

starBu haberi nasıl buldunuz?

İlk oylayan siz olun!

KONULAR:

#ARC-AGI2#yapay zeka#akıl yürütme#benchmark hacking#Gemini 3.1 Pro#Claude Opus#yapay zeka testi#akışkan zeka#font değişimi#yapay zeka yanılsaması

Doğrulama Paneli

Kaynak Sayısı

1

İlk Yayın

22 Şubat 2026

Son Güncelleme

22 Şubat 2026