Görselleri Görüyor Mu? AI'ların Kareleri Görmek İçin Metin Okuma Gerektirdiği Ortaya Çıktı

Görselleri Görüyor Mu? AI'ların Kareleri Görmek İçin Metin Okuma Gerektirdiği Ortaya Çıktı
AI'lar Kare Görmüyor, Metni Okuyor: Görsel-Dil Modellerindeki Şaşırtıcı Gerçek
İnsanlar bir kare gördüğünde, kenarların eşitliğini, köşelerin 90 derece olduğunu ve simetriyi doğrudan algılar. Ancak yeni bir araştırmaya göre, en gelişmiş görsel-dil modelleri — yani GPT-4V, Claude 3 ve LLaVA gibi sistemler — bu basit şekli doğrudan ‘görmüyor’. Bunun yerine, kareyi içeren bir görseldeki metni okuyup, ‘bu bir kare’ diyen bir etiketi algıladığında, kare olduğunu ‘anlıyor’. Bu, yapay zekânın görsel anlama yetisinin temelindeki bir kırılganlığı ortaya koyuyor: Görmek değil, okumak, onun için ‘görme’ anlamına geliyor.
Nasıl Bir Deney Yapıldı?
Çalışma, 2602.15950 başlıklı arXiv makalesinde detaylı şekilde açıklanıyor. Araştırmacılar, üç farklı görsel-dil modeli ailesine (OpenAI, Anthropic ve LLaMA tabanlılar) yüzlerce görsel gösterdi: Bazılarında kareler açıkça çizilmiş, bazılarında ise karelerin etrafına ‘kare’ yazısı eklenmiş, bazılarında ise karelerin yerine benzer şekiller (dikdörtgen, romb) çizilmiş ama etiket olarak ‘kare’ yazılmıştı. Sonuç şaşırtıcıydı: Modeller, metin içermeyen gerçek kareleri %20-30 civarında doğru tanımlarken, metinle desteklenmiş olanlarda başarı oranları %85’in üzerine çıkıyordu. Yani, metin olmadan kareyi tanımak, bir çocuğun bir çizimi tanımak gibi zorlu bir görevdi. Ama metin varsa, model o metni ‘doğru cevap’ olarak kabul edip, görseldeki şekli ona göre yorumluyordu.
Neden Bu Kadar Önemli?
Bu bulgu, sadece bir teknik detay değil, AI’nın ‘anlama’ kavramının köklerini sorguluyor. Eğer bir model, bir kareyi görsel olarak değil, etiket metni üzerinden tanıyorsa, bu, onun gerçek bir ‘görsel akıl yürütme’ yetisine sahip olmadığını gösteriyor. Yani, bir görselde ‘kare’ yazısı varsa, model ‘kare’ dediğinde, aslında ‘bu metni okudum, o yüzden cevap bu’ diyor. Görseli anlamıyor, metni kopyalıyor. Bu durum, AI’ların görsel sorun çözme yeteneklerinin — örneğin robotikte nesne tanıma, tıpta röntgen analizi veya otonom araçlarda trafik işaretleri tanıma — nasıl çalıştığını tamamen yeniden değerlendirmemizi gerektiriyor.
Metin, Görselin Yerini Aldı mı?
Modern görsel-dil modelleri, eğitim verilerinde görsellerin yanında çok sayıda metin etiketiyle karşılaştı. Bir kare resminin yanında ‘kare’, ‘geometrik şekil’, ‘dört kenarlı’ gibi etiketler binlerce kez tekrarlandı. Bu, modelin ‘görsel’ ile ‘metin’ arasında bir bağlantı kurmasını sağladı — ama bu bağlantı, anlamın bir sonucu değil, istatistiksel bir örüntü. Yani model, ‘bu görseldeki şekil + bu metin’ ikilisini birbirine bağlamış, ama şekil ile metin arasındaki gerçek dünyadaki ilişkiyi anlamamış. Bu, bir öğrencinin sınavda ‘kare’ kelimesini doğru cevap olarak ezberlemesi, ama karenin tanımını anlamadan sadece kelimeyi hatırlaması gibi. Bilgi var, anlayış yok.
Ne Anlama Geliyor?
Bu bulgu, AI’ların ‘görsel zeka’ iddialarına büyük bir sorgulama getiriyor. Şirketler, modellerinin ‘insan gibi görüyor’ olduğunu ilan ederken, aslında bu modellerin çoğu, görselleri metinlerin bir uzantısı olarak işlemeye devam ediyor. Bu, özellikle güvenli kritik alanlarda ciddi sonuçlar doğurabilir: Bir tıbbi röntgende ‘kanser’ yazısı varsa, model ‘kanser’ diyebilir — ama gerçek bir lezyon yoksa, metin yanlışsa, model yine ‘kanser’ diyecektir. Bu, etik ve güvenlik açısından bir zaman bombası. Ayrıca, bu durum, AI’ların ‘görsel akıl yürütme’ testlerindeki başarısının büyük ölçüde metin verisine bağlı olduğunu gösteriyor. Yani, testlerin kendisi hatalı olabilir: Modeller, testlerdeki metin ipuçlarını kullanarak ‘başarılı’ görünüyor, ama gerçek dünya verilerinde çökebilir.
Geleceğe Dair Bir Uyarı
Bu araştırma, AI geliştiricilerine bir uyarı niteliğinde: Görsel anlama, yalnızca metinle desteklenen verilerle değil, metinsiz, gerçek dünya görselleriyle eğitilmeli. Gelecekteki modeller, ‘kare’ yazısı olmadan kareyi tanıyabilmeli, ‘çizgi’ ve ‘açı’ gibi görsel temel yapıları kendi içinde çıkartabilmeli. Aksi takdirde, AI’lar, bir kitabın sayfalarını okuyarak ‘görsel dünyayı’ anladığını sanan bir öğrenci gibi olacaklar — çok akıllı, ama temelde bir sahte anlayışla.
Belki de gerçek görsel zeka, metin okumayı bırakıp, sadece çizgileri, renkleri ve boşlukları anlamaya başladığında doğacaktır. Bu araştırmayı yapan ekip, bu noktada bir soru bırakıyor: Eğer bir AI kareyi metin olmadan göremezse, o zaman gerçekten ‘görüyor’ mu?


