Görsel Akıl Yürütmede SOTA: 0思考 ile RL Çerçevesi 2026'da Yeni Rekor Kırıyor | Liu Zhuang & Chen D...

Görsel Akıl Yürütmede SOTA: 0思考 ile RL Çerçevesi 2026'da Yeni Rekor Kırıyor | Liu Zhuang & Chen D...
summarize3 Maddede Özet
- 1Çinli araştırmacılar Liu Zhuang ve Chen Danqi, 0思考 verisiyle çalışan yeni bir görsel akıl yürütme RL çerçevesini açıkladı. Bu girişim, yapay zekâda veri bağımlılığını kökten sorguluyor.
- 2Görsel Akıl Yürütmede SOTA: 0思考 ile RL Çerçevesi 2026'da Yeni Rekor Kırıyor 0思考 Nedir?
- 3Teknik Detaylar 0思考 , eğitimde herhangi bir önceden etiketlenmiş veriye ihtiyaç duymadan, modelin kendi gözlemlerinden mantıksal çıkarımlar yapmasını sağlar.
psychology_altBu Haber Neden Önemli?
- check_circleBu gelişme Bilim ve Araştırma kategorisinde güncel eğilimi etkiliyor.
- check_circleTrend skoru 9 — gündemde görünürlüğü yüksek.
- check_circleTahmini okuma süresi 3 dakika; karar vericiler için hızlı bir özet sunuyor.
Görsel Akıl Yürütmede SOTA: 0思考 ile RL Çerçevesi 2026'da Yeni Rekor Kırıyor
0思考 Nedir? Teknik Detaylar
0思考, eğitimde herhangi bir önceden etiketlenmiş veriye ihtiyaç duymadan, modelin kendi gözlemlerinden mantıksal çıkarımlar yapmasını sağlar. Örneğin: Bir köpek ve bir topun aynı çerçevede olduğu bir görüntü + topa dokunulduğunda +1 puan. Bu iki unsurla, model nesnelerin kimliğini değil, etkileşimlerini öğreniyor.
RL Çerçevesi Nasıl Çalışır?
Bu RL çerçevesi, üç temel bileşenle çalışır:
- Görsel Girdi: Tek bir görüntü (etiketlenmemiş).
- Ödül Fonksiyonu: Basit, insan tarafından tanımlanmış bir geri bildirim (örn. "topa dokunuldu = +1").
- Deneysel Akıl Yürütme Modülü: Model, deneyimlerinden kalıcı çıkarımlar üretir ve bunları içsel bir "düşünce verisi" olarak kaydeder.
Bu yapı, insan çocuklarının nesneleri öğrenme biçimine benzer: "Ne olduğunu bilmiyorum, ama ne yapabileceğini görüyorum."
SOTA Karşılaştırmaları: 2026'da Neden Önemli?
ImageNet-RL ve CLEVR veri setlerinde, bu çerçeve mevcut SOTA modellerini %18.7 oranında aşarak yeni bir performans rekoru kırdu. Ayrıca:
- Eğitim süresi %85 azaldı.
- Hesaplama maliyeti %72 düştü.
- Veri boyutu 1000x daha küçük.
Önemli: Bu başarı, yalnızca teknik değil, felsefi bir dönüşüm. Görsel akıl yürütme artık "ne gördüğünü" değil, "nasıl düşündüğünü" ölçüyor.
Açık Kaynak ve Küresel Etki
Proje GitHub'da 72 saat içinde 12.000 yıldız ve 3.000+ fork aldı. Google DeepMind ve Meta AI, bu çerçeveyi robotik projelerinde test etmeye başladı. Eğitim kurumları, robotik laboratuvarları ve küçük AI girişimleri artık SOTA performansı için milyonlarca dolarlık veri toplamak zorunda değil.
Sınırlar ve Gelecek: 0思考'in Sınırı Var mı?
Bazı uzmanlar, bu yaklaşımın yalnızca fiziksel nesne etkileşimleri (örn. top fırlatma, engel aşma) gibi basit görsel görevlerde etkili olabileceğini savunuyor. Karmaşık sembolik veya dil-tabanlı görsel akıl yürütme (örn. resimdeki metaforlar) için hâlâ büyük veri gerekebilir.
Ancak Liu ve Chen, gelecekteki versiyonlarda modelin kendi deneyimlerinden türeyen "düşünce verilerini" paylaşabilmesini planlıyor. Bu, AI'nın "kendi öğrenmesini" paylaşabileceği ilk adım olabilir.
Görsel akıl yürütme artık "veri toplamak" değil, "düşünmek" üzerine kuruluyor. Bu çerçeve, yalnızca bir algoritma değil, bir felsefi çağrısı: Daha fazla veri değil, daha akıllı yapılar geleceğin anahtarıdır.
Bu çerçeveyi GitHub'tan indirip deneyin: github.com/zhliu/zero-thought-rl
İlgili okuma: Reinforcement Learning Nedir? • DeepMind’in 2025 SOTA Görsel Akıl Yürütme Çalışması


