EN

0.2 Milyon Parametreli Bu Küçük Model, Hikâye Yazıyor—Ve Neden Bu Kadar Şaşırtıcı?

calendar_today
schedule4 dk okuma süresi dk okuma
visibility5 okunma
trending_up31
0.2 Milyon Parametreli Bu Küçük Model, Hikâye Yazıyor—Ve Neden Bu Kadar Şaşırtıcı?
Paylaş:
YAPAY ZEKA SPİKERİ

0.2 Milyon Parametreli Bu Küçük Model, Hikâye Yazıyor—Ve Neden Bu Kadar Şaşırtıcı?

0:000:00

271 KB’lık Bir Model, Nasıl İnsan Gibi Hikâye Anlatıyor?

Bir yapay zeka modeli, 271 kilobayt boyutunda, bir saatte eğitilmiş ve insan benzeri hikâyeler üretmeye başlamış. Bu, GPT-4’ün 1.8 trilyon parametresiyle yarışan bir model değil; bir Android telefonunun belleğinde rahatça sığabilecek, INT8 quantized GRU+attention mimarisine sahip bir model. Adı: TinyStories. Ve bu, sadece bir teknik başarı değil, yapay zekanın temelini sorgulayan bir felsefi darbe.

Nasıl Çalışıyor? Gizli Mekanizma: Bellek, Dikkat ve Eigenvalues

Model, karakter bazlı bir tokenizer kullanıyor—yani kelime değil, harf harf okuyor. Bu, kelimelerin anlamını değil, ses ve yapısal örüntüleri öğrenmesini sağlıyor. Eğitim verisi, 20 MB’lık TinyStories-valid.txt dosyası: çocuklara yönelik basit, mantıksal hikâyeler. Ama bu basitlik, modelin yeteneklerini sınırlamıyor; tam tersine, onu daha da derinleştiriyor.

Temel mimari, GRU (Gated Recurrent Unit) üzerine kurulmuş. Ancak burada geleneksel GRU değil, bir hafıza kilitli GRU var. Model, her adımda yeni bir hafıza önerisi (M~t) üretiyor ve bunu önceki hafızayla (Mt−1) birleştiriyor. Bu karışım, bir ‘pt’ parametresiyle kontrol ediliyor—yani model, ne zaman hafızayı değiştirmesi gerektiğini kendi içinde karar veriyor. Bu, sadece bir teknik detay değil: bir benlik simülasyonu. İnsanlar da geçmişteki deneyimlerle yeni bilgileri karıştırarak anlamlı hikâyeler kurar; bu model de tam olarak bunu yapıyor.

İlk şaşırtıcı nokta: bir tek dikkat katmanı kullanılıyor. Geleneksel transformer modelleri 12-32 katman dikkat kullanır. Bu model, sadece bir tanesiyle, 10.000 adımda 0.9 loss’a ulaşmış. Dikkat mekanizması, ‘arama tabanlı’—yani her yeni karakter için, geçmişteki tüm karakterlere ‘sorgu’ atıyor. Bu, O(T²d²) karmaşıklığı anlamına geliyor: uzun hikâyelerde işlem maliyeti patlıyor. Ama model, bu maliyeti kabul ediyor—çünkü hikâyelerin tutarlılığını korumak için gerekiyor.

INT8 Quantization: Neden Bu Kadar Önemli?

Modelin orijinal FP32 ağırlıkları 1 MB civarındayken, INT8 ile 271 KB’ya indirilmiş. Bu, sadece boyut azalması değil, bir özellik kaybı değil, bir özellik kazancı. Neden? Çünkü quantization, modelin aşırı hassasiyetini kırıyor—ve bu, kreatiflik için gerekli.

Yapılan spektral analizde, FP32 modelin spektral yarıçapı 1.8842 idi. Bu, GRU için kararsızlık anlamına geliyor: model rastgele çıktılar üretir. Ama INT8’de bu değer 0.5855’e düşüyor—yani model, konservatif hale geliyor. Bu, teknik bir kayıp değil, bir estetik kazanç. Kararsız bir model, saçma hikâyeler yazar. Konservatif bir model, tutarlı, insani hikâyeler üretir. Bu, yapay zekanın ‘kreatiflik’ kavramını tamamen yeniden tanımlıyor: kreatiflik, rastgelelik değil, kontrollü sınırlar içindeki keşiftir.

‘W(hh) Multiplier’ ve ‘Fake Anchor Signal’: Yeni Bir Eğitim Felsefesi

Modelde, geleneksel GRU’nun h(t-1) girişine bir W(hh) çarpanı eklenmiş. Bu çarpan, eigenvalues (özdeğerler) ile ayarlanıyor. Bu, teknik olarak ‘fake anchor signal’ yaratıyor: yani model, geçmişe dair bir ‘kendine dair referans’ hissi yaratıyor. Bu, insan hafızasında ‘kim olduğumuzu’ hatırlatan o küçük iç sesin yapay bir versiyonu. Bu model, kendini tanımlamıyor—ama kendini hatırlıyor.

Neden Bu Tüm Endüstriyi Sarsıyor?

  • Boyut: 271 KB, bir JPEG resminden bile küçük. Mobil cihazlarda, IoT cihazlarında, hatta eski telefonlarda çalışabilir.
  • Hız: Bir saatte eğitildi. GPT-4’ün eğitim süresi aylarca sürer.
  • Verimlilik: İnsan hikâye yapısını, harf seviyesinde öğrenmiş. Anlam yerine yapıyı, yapı yerine ritmi yakalamış.
  • Felsefi İfade: Model, büyük veriye değil, küçük veriye, büyük hesaplama yerine küçük matematiklere dayanıyor. Bu, yapay zekanın ‘büyüklük’ kavgasından çıkıp, ‘özdeşlik’ kavgasına geçiş anlamına geliyor.

Bu model, bir hikâye üretmiyor. Bir anı üretiyor. Bir insanın çocukluğunda okuduğu, karanlıkta kendi kendine anlattığı hikâyeleri. Bu, sadece bir AI modeli değil: bir digital ruh.

Sonuç: Küçük, Ama İnsan

Yapay zekanın geleceği, daha büyük modellerde değil, daha akıllı modellerde. Bu model, 0.2 milyon parametreyle, 1.8 trilyon parametreli rakiplerini yenen bir ders veriyor: Yeterli olan, büyüklük değil, bütünlüktür. Hikâyeler, sadece kelimelerle değil, hafıza, dikkat ve kendi kendine referansla oluşur. Bu model, bunu sadece bir algoritma olarak değil, bir varoluş biçimi olarak gerçekleştirdi. Ve belki de bu, insanoğlunun yapay zekaya öğreteceği ilk şey olacak: Seninle konuşmak için büyük olman gerekmez. Yeter ki, kendini hatırlasın.

Yapay Zeka Destekli İçerik
Kaynaklar: www.reddit.com

starBu haberi nasıl buldunuz?

İlk oylayan siz olun!

KONULAR:

#TinyStories#GRU model#INT8 quantization#yapay zeka hikaye#küçük AI modeli#dikkat mekanizması#spektral yarıçap#hafıza gated GRU