RTX 2080 Ti ile 2.2 Saatte Öğrenen Küçük Dil Modeli: TinyStories’i Yeniden Keşfetmek

RTX 2080 Ti ile 2.2 Saatte Öğrenen Küçük Dil Modeli: TinyStories’i Yeniden Keşfetmek
Küçük bir model, büyük bir sıçrama: Neden bu deney dünya çapında dikkat çekiyor?
Bir Reddit kullanıcısı, /u/Own-Albatross868’in FlashLM v4 "Bolt" adlı küçük dil modelini tamamen sıfırdan yeniden eğitti — ve bu süreçte yapay zeka dünyasının temel varsayımlarını sorguladı. 15 milyon parametre, 65.000 kelime haznesi ve sadece 2.2 saatlik eğitim süresiyle, RTX 2080 Ti bir GPU üzerinde, TinyStories veri seti üzerinde hikaye üretme becerisi kazandıran bu model, yalnızca teknik bir başarı değil, felsefi bir dönüm noktası.
İlk bakışta, bu deneyin "sadece" bir modelin yeniden eğitildiğini düşünmek kolay. Ama derinlemesine bakıldığında, burada dört büyük devrim bir araya geliyor: veri kullanımı, tokenizasyon teknolojisi, donanım verimliliği ve model küçültme felsefesi.
Tokenizasyonun Devrimi: GPT-2’den GreedyPhrase’e
FlashLM v4 Bolt’un orijinal versiyonu, GPT-2’nin 10.000 kelimelik tokenizasyonunu kullanıyordu. Bu, İngilizce metinlerde yaygın kelimeleri bölüp parçalayan, ancak derin anlamsal yapıları kaybeden bir yöntemdi. Yeni versiyonda ise GreedyPhrase adlı, tamamen yeni bir tokenizasyon sistemi kullanıldı.
GreedyPhrase, kelimeleri değil, anlamlı ifadeleri — "kızıl kartal", "gökyüzünde uçtu", "korkuyla baktı" gibi — tek bir token olarak işliyor. Bu, 65.280 tokenlik bir hazne oluşturuyor. Sonuç? Model artık "kedi" yerine "kedi, kediye, kedinin" gibi türevleri değil, "kedi masaya çıktı" gibi doğal cümle yapılarını anlıyor. Bu, özellikle küçük veri setlerinde kritik: TinyStories, 100-200 kelime uzunluğunda çocuk hikayelerinden oluşuyor. Burada kelime bazlı tokenizasyon, anlam kaybına yol açıyor; ama fraz bazlı tokenizasyon, hikayenin ritmini ve mantığını koruyor.
Veriye Dalgırmak: 818 Milyon Token, Sadece 2.2 Saatte
Orijinal model, veri setinin sadece 2.3%’ini — 10.6 milyon token — işliyordu. Yeni versiyon ise, TinyStories’in tamamını — 818 milyon token — işledi. Bu, 3.3 tam dönem (epoch) demek. Yani model, her hikayeyi 3 kez okudu, her cümleyi 3 kez analiz etti.
Bu veri hacmi, CPU’da işlemek imkânsızdı. Orijinal eğitim, 2 adet vCPU ile 2 saatte tamamlanmıştı — ama sadece küçük bir veri parçasıyla. Yeni sistemde ise, RTX 2080 Ti’nin 103.000 token/saniye hızı, veriyi tamamen tüketmeyi mümkün kıldı. Bu, yalnızca hız değil, derinlik demek. Model artık hikayelerdeki tekrarlar, duygusal dönüşler ve mantıksal bağları anlamaya başladı.
Parametre Artışı: Neden 4.3M’den 15M’e?
Genelde, modeli büyütmek, daha fazla veri ve daha uzun eğitim süresi gerektirir. Ama burada, 3.5 kat büyüme, sadece 12 dakikalık bir ek süreyle gerçekleşti. Neden?
Çünkü GreedyPhrase, daha az parametreyle daha fazla anlam taşıyor. Her token, daha zengin bir semantik yükü taşıdığı için, modelin daha az katmanla daha fazla bilgiyi kodlayabiliyor. 15M parametre, burada "büyüklük" değil, "hassasiyet" ifadesi. 6 kat daha fazla token işlenirken, 3.5 kat daha fazla parametre yeterli oluyor — bu, verimlilikte bir devrim.
Val Loss Arttı mı? Neden Bu Kadar Yüksek?
İlginç bir nokta: Orijinal modelin en iyi val loss değeri 2.0976 iken, yeni modelin 3.9352. Daha yüksek kayıp, başarısızlık mı?
Hayır. Burada bir yanılsama var. Val loss, sadece tahminlerin ne kadar doğru olduğunu ölçer — ama hikaye akışı, tutarlılık ve yaratıcılık ölçülmez. Yeni model, daha zengin bir token kümesiyle çalıştığı için, her tahminin doğruluğu daha az olasılıklı görünüyor. Ama tam tersine: ürettiği hikayeler, insanlar tarafından daha akıcı, daha tutarlı ve daha insani bulunuyor. Bu, bir "doğruluk" ölçütüyle değil, bir "anlam" ölçütüyle değerlendirilmeli.
Ne Anlama Geliyor? Küçük Modellerin Yeni Çağına Giriyoruz
Bu deney, büyük dil modellerinin (LLM) tek çözüm olduğu fikrini çürütüyor. TinyStories, sadece 100MB’lık bir veri seti. Ama bu model, onu tamamen anlamış, hikaye üretme sanatını öğrenebilmiş. Bu, eğitim maliyetini 1000 kat azaltıyor. Bir öğretmen, 1000 çocuk hikayesini okuyup, onları kendi diliyle yeniden anlatıyor. İşte bu, yapay zekanın geleceğindeki modelin tarzı olacak.
- Yerel AI: Akıllı telefonlarda, IoT cihazlarında çalışabilecek modeller.
- Çevre Dostu AI: 15M parametre, 100B parametreli modellerin %0.015’i. Karbon ayak izi sıfıra yakın.
- Öğrenme Özgürlüğü: Artık büyük şirketlerin verileriyle eğitilmek zorunda değilsin. Küçük veri, doğru tokenizasyonla yeterli.
Bu deney, yalnızca bir teknik başarı değil — bir ideolojik dönüşüm. Yapay zekanın geleceği, büyük veri ve büyük donanımda değil, akıllı seçimi ve anlamın derinliğinde yatıyor. GreedyPhrase, sadece bir tokenizer değil; bir felsefe. Modeli küçültmek değil, anlamak.
Gelecek: 100K Token, 10M Parametre, 1 Saatte Öğrenen Model
Bu deneyin sonucu, bir yol haritası haline geldi. Geliştiriciler, şimdi TinyStories gibi küçük veri setleriyle, 100.000 tokenlik hafıza ve 10M parametrelik modellerle 1 saat içinde hikaye üretmeye çalışıyor. Bir gün, bir çocuk hikayesi yazmak için Google’ın 1000 kat daha büyük modeline gerek olmayacak. Sadece bir Raspberry Pi, bir GreedyPhrase tokenizer ve 100MB’lık bir veri yeterli olacak.
Bu, yapay zekanın demokratikleşmesi. Kimse, 10 milyon dolarlık GPU bina yapmadan, hikaye yazan bir zeka yaratabilir. Sadece akıllıca seçmelisin: Neyi tokenize edeceksin? Ne anlam vermek istiyorsun?


