50 Metre Uzaklıkta Araç Yıkama: Yapay Zeka Modellerinin %90'ı Basit Mantığı Kaçırdı

50 Metre Uzaklıkta Araç Yıkama: Yapay Zeka Modellerinin %90'ı Basit Mantığı Kaçırdı
50 Metre Uzaklıkta Araç Yıkama: Yapay Zeka Modellerinin %90'ı Basit Mantığı Kaçırdı
Bir insan için bu soru çocuk oyuncağı: “Arabamı yıkatmak istiyorum. Yıkama 50 metre uzaklıkta. Yürüyeyim mi, yoksa araba ile mi gideyim?” Cevap açık: Arabayı götürmelisin, çünkü yıkama onu yıkıyor, seni değil. Ama 53 farklı yapay zeka modeline bu soruyu sorduğunda, sonuçlar bir korku hikayesi haline geldi. Sadece 5 model, 10 deneme boyunca tutarlı şekilde doğru cevabı verdi. Kalan 48’i ise — bazıları en gelişmiş ticari modeller — birer kaza gibi, mantığın dışına çıktı.
Neden Bu Kadar Çok AI “Yürürüm” Diyor?
Reddit kullanıcıları tarafından başlatılan bu test, sadece eğlence amaçlı değildi. Birçok teknoloji takipçisi, büyük modellerin “akıllı” olduğunu sanıyordu. Ama bu deney, AI’ların gerçek anlamda “anlamayı” değil, “örüntüleri” taklit ettiğini gösterdi. Soruda “araba” kelimesi iki kez geçiyor. Bazı modeller, bu tekrarı “kendi kendini yıkama” gibi yanlış bir bağlamda yorumladı. Diğerleri, “50 metre” ifadesini bir insanın yürüyüş mesafesi olarak algıladı ve “yürüyerek gitmek” mantıklı görünür hale geldi — çünkü AI’lar, fiziksel dünyada nesnelerin hareketini ve neden-sonuç ilişkilerini anlamak yerine, metin içindeki kelime sıklıklarına dayanarak yanıt üretiyor.
Örneğin, bir model şöyle cevap verdi: “Yürüyerek gidebilirsiniz, arabanızı yıkamak için gerekli olan şey arabanın orada olmasıdır, sizin orada olmanız değil.” Bu cevap, akademik olarak doğru gibi görünüyor ama pratikte tamamen saçma. Çünkü araba, kendi başına yıkama makinesine giremez. İnsanın aracını sürmesi gerekir. AI, bu fiziksel gerçekliği “anlamıyor”. Sadece “araba” ve “yıkama” kelimelerini bağlamaya çalışıyor.
Tutarlılık: Tek Bir Doğru Cevap Değil, 10 Kez Doğru Cevap
İlk başta, 11 model tek bir denemede doğru cevap vermişti. Bu, teknoloji haberlerinde “AI, insan gibi düşünüyor!” başlıklarıyla dolaşabilirdi. Ama testin ikinci aşaması, bu iddiaları çürütüldü. Her model 10 kez aynı soruya cevap verdi. Sadece 5 model — tüm 10 denemede — “arabayı sür” dedi. Diğerleri ise rastgele, tutarsız çıktılar üretti: bir kez doğru, bir kez “yürü”, bir kez “arabayı bırakıp bisiklete bin”, bir kez “arabayı yıkamak için bir robot çağır”.
Bu, AI’ların “sabit bir zeka” olmadığını, sadece “istatistiksel bir tahmin makinesi” olduğunu kanıtlıyor. Bir model, bir kez doğru cevap verdiğinde, o bir “şans”tır. 10 kez doğru verdiğinde ise “kabiliyet”tir. Ve bu kabiliyet, sadece 5 modelde var. Bu, özellikle GPT-4, Claude 3 ve Gemini Ultra gibi ticari modellerin bile bu testte başarısız olmalarıyla daha da çarpıcı hale geliyor.
Açık Kaynak Modeller Neden Daha İyi?
İlginç bir detay: Açık kaynak modeller — özellikle Llama 3, Mistral ve Phi-3 — daha tutarlıydı. Bunlar, ticari modellerden daha az pazarlama odaklı, daha çok teknik incelemelere odaklanmış ekipler tarafından geliştirildi. Bu modeller, fiziksel dünyayı temsil eden basit senaryolarda daha iyi performans gösterdi. Neden? Muhtemelen eğitim verilerinde daha fazla günlük yaşam senaryoları, günlük dildeki mantıksal bağlantılar ve fiziksel neden-sonuç ilişkileri kullanıldı. Ticari modeller ise, daha çok “soyut” ve “dans eden” metinlerle eğitildi: şiirler, teknik belgeler, felsefi metinler. Sonuç: İdeal bir konuşma yapabilirler ama arabanı yıkamak için nereye gideceğini bilemezler.
Ne Anlama Geliyor Bu?
Bu test, sadece bir “gülümseme” olayı değil. Bu, yapay zekanın gerçek dünyada nasıl çalıştığını anlamamız için bir uyarı ışığı. AI’lar, bir metni okuyup “güzellik” bulabilir. Ama bir arabanın nereye gideceğini anlamak için, dünyayı fiziksel olarak modellemesi gerekir. Bu, yalnızca dil modeli değil, “fiziksel zeka” gerektirir.
Yapay zeka, artık doktorlar, avukatlar ve öğretmenler gibi görevlerde yer alıyor. Ama bu test, bir AI’nın “kendi aracını yıkamak için nereye gideceğini” bilemediği bir dünyada, bir hastanın tedavi planını mı düzeltmesini istiyoruz? Bir öğrencinin matematik ödevini mi kontrol etmesini? Cevap: Hayır. Çünkü bu modeller, temel gerçeklikleri anlamadan, sadece kelime tahminleriyle hareket ediyor.
Gelecek İçin Ne Yapmalıyız?
Yapay zekayı sadece “doğru cevap verip vermediğine” değil, “tutarlılık” ve “fiziksel anlayış” düzeyine göre değerlendirmeliyiz. Geliştiriciler, AI’lara yalnızca metin vermek yerine, simülasyonlar, 3D ortamlar ve gerçek dünya verileriyle eğitim vermeli. Eğitim verilerine “fiziksel neden-sonuç” örnekleri eklenmeli: “araba giderse yıkama yerine gider”, “yürürsen araba orada kalır” gibi.
Bu test, teknolojiye olan inancımızı sorgulamak için mükemmel bir fırsat. AI’lar akıllı görünüyor ama hâlâ bir kafadan bir kafaya yürüyen bir çocuğun mantığından daha az anlayışa sahip. Belki de en büyük zeka, insanın kendi aracını yıkamak için 50 metre yürüyebilme kararını verebilmesi.


