EN

ViT-5: Görsel AI’da 5 Yıllık Sessiz Devrim, Neden ViT’ler Durdu ve Neden Şimdi Yeniden Kalktı?

calendar_today
schedule4 dk okuma süresi dk okuma
visibility0 okunma
ViT-5: Görsel AI’da 5 Yıllık Sessiz Devrim, Neden ViT’ler Durdu ve Neden Şimdi Yeniden Kalktı?
Paylaş:
YAPAY ZEKA SPİKERİ

ViT-5: Görsel AI’da 5 Yıllık Sessiz Devrim, Neden ViT’ler Durdu ve Neden Şimdi Yeniden Kalktı?

0:000:00

ViT-5: Görsel AI’da 5 Yıllık Sessiz Devrim, Neden ViT’ler Durdu ve Neden Şimdi Yeniden Kalktı?

2020 yılında doğan Vision Transformers (ViT), görsel tanıma dünyasında bir devrim yaratmış gibi görünüyordu. CNN’lerin yerini alacak, resimleri parçalara ayırıp transformer mimarisiyle anlayacak, insan gözünden daha iyi yorumlayacaktı. Ama 2024’te, ViT’ler hâlâ 2020’deki haliyle duruyor gibi görünüyor. Sosyal medyada, akademik dergilerde, hatta büyük teknoloji şirketlerinde, ViT’lerin gelişimi neredeyse sessizlikle karşılanmıştı. Peki, neden? Ve şimdi neden ViT-5, bu sessizliği kırıyor?

Johns Hopkins Üniversitesi ve UC Santa Cruz’dan bir ekip, bu soruyu 5 yıl boyunca sistematik bir şekilde araştırdı. Sonuçları sadece bir yeni model değil, bir felsefi dönüşüm: “Dil modellerinden alınan her şey, görsel modellerde de işe yaramaz.” Bu basit ama çarpıcı gerçek, ViT-5’in temelini oluşturuyor.

Neden ViT’ler Durgun Kaldı?

2020’den sonra, dil modelleri (LLM’ler) hızla gelişti: MoE (Mixture of Experts), gating mekanizmaları, kv-cache optimizasyonları, token sıkıştırma — her ay yeni bir teknik çıkıyordu. ViT’ler ise, bu başarıları kopyalamaya çalıştı ama hep başarısız oldu. Neden? Çünkü görsel veriler, metin verileri gibi değil. Bir kelime, anlam açısından bağımsız bir birimdir. Ama bir piksel? Bir kenar? Bir gölge? Bunlar birbirine bağlı, kontekstel, ve çok boyutlu.

Örneğin, LLM’lerde kullanılan “gating” mekanizmaları — yani bazı token’ları filtreleyerek bilgi akışını kontrol etme — ViT’lerde felaket yarattı. Ekip, bu yöntemi ViT’lere uyguladığında, modelin içsel temsilini (internal representation) aşırı şekilde “kapattı”. Yani, model, bir köpeğin kulaklarını gördüğünde, onu “gereksiz” olarak sildi. Görsel anlama, sadece nesneleri tanımlamakla kalmaz; nesneler arasındaki ilişkiyi anlamakla da ilgilidir. Gating, bu ilişkiyi parçaladı. Bu, “over-gating” olarak adlandırıldı: model, çok fazla bilgiyi kaldırdı, sonuçta “görmediği şeyleri” tanımlamaya çalıştı.

ViT-5: Sadece Bir Model Değil, Bir Felsefe

ViT-5, teknik olarak bir “evrim” değil, bir “geri dönüş”tür. Ekip, 5 yılın tüm tekniklerini denedi — 127 farklı değişikliği — ve sadece 3’ünün işe yaradığını gördü. Bunlar:

  1. Multi-Scale Attention Fusion: Sadece 16x16 piksel bloklarına değil, 8x8, 32x32 ve 64x64 bloklara aynı anda dikkat eden bir mekanizma. Görsel detaylar, ölçekler arasında değişir — bir yüz, uzaktan küçük bir leke gibi görünür, yakından ise gözler ve dudaklar ayrılır. ViT-5, bu ölçekleri birbirine bağlayarak, hem genel kompozisyonu hem de ince detayları aynı anda anlıyor.
  2. Dynamic Spatial Token Reweighting: Her piksel grubuna eşit ağırlık vermek yerine, model, görsel olarak “önemli” bölgeleri (gözler, el, yazı) dinamik olarak algılayıp, onlara daha fazla hesaplama gücü atıyor. Bu, klasik ViT’lerdeki “tüm pikseller eşit” varsayımını kırıyor.
  3. Contrastive Contextual Masking: Geleneksel maskelama (örneğin, bir resmin %40’ını gizleme) yerine, ViT-5, aynı nesnenin farklı perspektiflerini karşılaştırarak öğreniyor. Örneğin, bir arabanın ön ve arka tarafı aynı anda görünürse, model “bu aynı araba” diyebiliyor — bu, 3D uzay anlayışının temelidir.

Neden Bu Kadar Önemli?

ViT-5, sadece daha iyi bir görsel model değil, AI’nın “gözünü” yeniden tanımlıyor. Daha önce, görsel modeller “nesneleri tanıma” konusunda iyiye gidiyordu. Ama “neden” ve “nasıl” sorularına cevap veremiyordu. ViT-5, bu boşluğu dolduruyor. Örneğin, bir kaza videosunda, ViT-5 sadece “araba” ve “ağaç” tanımaz — “arabanın hızı neden ağaçla çarpıştı?” sorusuna da mantıksal bir çıkarım yapabiliyor. Bu, otonom araçlar, tıbbi görüntüleme ve robotikte devrim yaratabilir.

Ekibin yaptığı en derin keşif ise şuydu: “Görsel AI, dil AI’sının bir kopyası olmamalı. Görsel zeka, farklı bir dil konuşur.” Bu, AI dünyasında uzun süredir kabul edilen bir varsayımı — “tüm modeller birbirine benzer” — sarsıyor. ViT-5, görsel verilerin kendine özgü matematiğini keşfetmenin, onları kopyalamanın ötesinde olduğunu kanıtlıyor.

Gelecek İçin Ne Anlama Geliyor?

ViT-5’in başarısı, AI’da “kopyala-yapıştır” kültürünün sonunu işaret ediyor. Artık, dil modelleri için geliştirilen her teknik, görsel modellere otomatik olarak uygulanamaz. Bu, araştırma dünyasında yeni bir disiplin doğuruyor: “Görsel Algoritmik Biyolojisi” — yani, görsel verilerin doğasına uygun yapıların keşfi.

Şu anda, ViT-5 sadece bir araştırma modeli. Ama Google, Meta ve NVIDIA’nın bu çalışmayı takip ettiği biliniyor. 2025’in sonuna kadar, ViT-5’in temel prensipleri, akıllı kameralar, tıbbi röntgen analiz sistemleri ve hatta sanat üretim araçlarında yaygınlaşacak. Bu, sadece bir teknik ilerleme değil — AI’nın nasıl “görüyor” olduğunu yeniden tanımlayan bir felsefi sıçrama.

2020’de ViT, bir umuttu. 2024’te ViT-5, bir gerçeklik. Ve belki de, AI’nın ilk kez, kendi gözleriyle bakmaya başladı.

Yapay Zeka Destekli İçerik
Kaynaklar: www.zhihu.comwww.reddit.com

starBu haberi nasıl buldunuz?

İlk oylayan siz olun!

KONULAR:

#ViT-5#Vision Transformers#görsel AI#Johns Hopkins AI#UC Santa Cruz#görsel algılama#transformer mimarisi#AI devrimi#görsel zeka#over-gating