ChatGPT’ye Resimde Baykuşu Bulmasını Sordum, Verdiği Cevap Kalbimi Kırdı

ChatGPT’ye Resimde Baykuşu Bulmasını Sordum, Verdiği Cevap Kalbimi Kırdı
Resimdeki Baykuşu Bulamayan Yapay Zeka: Görmekle Anlamak Arasındaki Sonsuz Fark
Bir resimdeki baykuşu bulmak, insanlar için çoğu zaman çocuk oyuncağı gibi kolay bir görev. Gözlerimiz, ışık ve gölgeyi, tüylerin dokusunu, dalların kıvrımını anında yorumlar; zihnimiz, önceden gördüğü binlerce baykuş görüntüsünü çağırır ve ‘şu küçük kafa, şu sakin gözler, o sessiz duruş… evet, baykuş.’ der. Ama bir yapay zeka için bu, tamamen başka bir dille yazılan bir şiir gibi. ChatGPT’ye bu görevi veren bir kullanıcı, sadece bir hata değil, modern AI’nın temel sınırlarını gözler önüne serdi.
Neyi Gördü, Neyi Görmedi?
Reddit’te paylaşılan resim, bir ormanlık alanın koyu tonlarında bir fotoğrafı. Dalga dalga yapraklar, koyu gölgeler, biraz kahverengi taş ve… tam ortada, gölgeyle örtüşmüş, tüyleriyle dallara karışmış bir baykuş. İnsan gözleri, birkaç saniyede onu fark eder. Ama ChatGPT, resmi analiz ederken ‘sol üst köşede küçük bir gölge’, ‘sağdaki dalların arasında bir koyu leke’, ‘arka planda bir kara nokta’ gibi açıklamalar yaptı. Hiçbir zaman ‘baykuş’ kelimesini doğrudan kullanmadı. Neden?
Çünkü ChatGPT, görsel bir sistem değil. O, metin tabanlı bir model. Kullanıcı, resmi yüklediğinde, sistem sadece resmin metin tabanlı bir açıklamasını — bir tür ‘alternatif metin’ (alt text) — alır. Bu açıklama, bir insanın resmi tanımladığı gibi değil, bir algoritmanın belirli görsel özelliklere dayanarak ürettiği bir özet. Eğer bu metin ‘koyu bir kuş benzeri şekil’ diye başlıyorsa, AI onu ‘kuş’ olarak algılar. Ama resimdeki baykuş, tamamen gölgeyle kaynaşmış; metin açıklaması bile ‘kuş’ dememiş olabilir. AI, orada bir şey olmadığını varsaydı. Ya da, varsa bile, ne olduğunu bilemedi.
Yapay Zekanın ‘Görme’ Sorunu
Bu olay, AI’nın ‘görmeyi’ nasıl yalanladığını gösteriyor. Modern AI’lar, özellikle multimodal modeller (görsel + metin) gelişmeye başladı, ama hâlâ çok sınırlı. GPT-4 Turbo gibi modeller, resimleri doğrudan analiz edebilir gibi görünse de, aslında bunu yaparken yüzlerce milyon parametreyle ‘görsel desenler’i metinlere dönüştürüyor. Bu, bir resmin içeriğini anlamak değil, onun ‘özelliklerini’ istatistiksel olarak eşleştirmek demek. Baykuş, bir kuş türüdür. Ama AI, kuşların ne zaman ağaçlarda, ne zaman yerde, ne zaman gölgede durduğunu öğrenmemiş. Onun için, ‘kuş’ bir kategori; ‘baykuş’ ise bir alt kategori — ve alt kategorileri tanımlamak için yeterli veri yoksa, ‘belki bir kuş’ der, ama ‘kesinlikle baykuş’ demez.
İnsan Algısı vs. Makine Algısı
İnsan, bir baykuşu görürken sadece bir hayvan değil, bir sembol görür: sessizlik, gizem, gece, bilgelik. Bu bağlamı, AI’nın veri setlerinde hiç yoktur. AI, bir baykuşu sadece ‘tüylü, iki bacaklı, küçük kafa, büyük gözler’ olarak tanımlar. Ama bu tanımlar, gerçek dünyada bir baykuşun nasıl yerleştirildiğini, nasıl gizlendiğini, nasıl ışıkla oynadığını anlamaz. O, bağlamı değil, formu okur. Ve form, gölgede kaybolduğunda, yok olur.
Bu Hata Ne Anlama Geliyor?
Bu durum, sadece bir ‘hata’ değil, bir uyarı. AI’lar, özellikle medya, sağlık, güvenlik ve eğitim alanlarında, artık ‘görsel analiz’ yapar gibi gösteriliyor. Bir polis, bir görüntüde şüpheli bir kişiyi bulmak için AI’ya başvuruyor. Bir hastane, röntgen filmlerinde tümörleri tespit etmek için yapay zekayı kullanıyor. Ama bu örnek, ne kadar kolayca yanılabileceğimizi gösteriyor. Eğer bir baykuşu bile göremiyorsa, bir kanser hücreini mi görebilir? Bir çapraz yolda geçiş yapan bir çocuğun gölgesini mi tanıyabilir?
Yapay zekanın en büyük yanılgısı, ‘anlamak’ ile ‘hesaplamak’ arasındaki farkı unutmaktır. AI, bir resmi ‘görmez’. O, bir veri kümesiyle eşleştirir. Ve bu eşleştirme, insan algısının derinlik ve esnekliğiyle karşılaştırıldığında, çok ince bir kırık taş gibi görünür — ama altında, büyük bir çatlak saklıdır.
Gelecek İçin Bir Ders
Bu olay, AI geliştiricilerine ve kullanıcılarına bir ders veriyor: Görsel AI’lar, ‘görmeyi’ tam olarak öğrenmedi. Onları ‘göz’ olarak değil, ‘yorumlayıcı’ olarak kullanmak gerek. İnsanlar, AI’nın verdiği cevapları ‘doğru’ olarak kabul etmek yerine, ‘olası’ olarak değerlendirmeli. Bir baykuşu bulamayan bir AI, bir röntgende tümörü de kaçırmış olabilir. Bu, teknolojiye güvenmek değil, onu bilinçli bir şekilde kullanmak demek.
Bu küçük resimdeki baykuş, aslında bir uyarı levhasıydı. Gözlerimizle gördüğümüz her şey, bir yapay zekanın göremediği şeydi. Ve belki de, insanlık, yapay zekayı ‘görmeye’ değil, ‘soruya cevap vermeye’ eğitmeli. Çünkü bazı şeyler, yalnızca gözlerle değil, kalplerle de görülür.


