CPU'da 1.2 Saatte AI Modeli Eğittim, Matris Çarpımları Yoktu: Neden Bu İnanılmaz?

CPU'da 1.2 Saatte AI Modeli Eğittim, Matris Çarpımları Yoktu: Neden Bu İnanılmaz?
GPU’ya İhtiyacımız Yok Mu? Bir Bilim İnsanı, CPU’da 1.2 Saatte AI Modeli Eğitti
Bir araştırmacı, yapay zekanın en temel taşlarından birini sorguladı: Matris çarpımları olmadan bir dil modeli eğitilebilir mi? Cevap: Evet. Ve sadece 1.2 saatte. Bu olay, sadece bir teknik başarı değil, AI endüstrisinin 15 yıldır inandığı temel inançlara karşı bir isyan. NVIDIA’nın Blackwell mimarisiyle pazarı支配 ettiği bu dönemde, bir bilim insanı, sadece bir CPU ve akıllı bir algoritma tasarımıyla, bu inançları sarsmayı başardı.
Neden Bu Kadar Önemli?
Yapay zeka modelleri, özellikle büyük dil modelleri (LLM’ler), geleneksel olarak matris çarpımları üzerine kuruludur. Bu matris işlemleri, GPU’ların paralel işlem gücü sayesinde hızla yürütülür. NVIDIA’nın CUDA platformu, bu işlemi standart hale getirdi. Bugün, bir AI modeli eğitmek demek, CUDA’ya sahip bir GPU bulmak demektir. Ama bu araştırmacı, CUDA’yı, GPU’yu ve hatta matris çarpımlarını tamamen dışladı.
Yapılan iş, teknik olarak tensor operasyonlarının yerine lineer olmayan, sparsify edilmiş ve hafıza-dostu hesaplama şemaları kullanmaktı. Model, geleneksel backpropagation yerine, evrişimli sinyal propagasyonu ve doğrusal olmayan aktivasyon zincirleri ile ağırlıkları güncelledi. Bu yöntem, her bir işlemde yalnızca birkaç binlik veri noktası üzerinde çalışır, ancak bu noktalar, modelin öğrenme dinamiklerini etkileyen kritik örüntülerdir. Sonuç: 1.2 saatte, 1.3 milyar parametrelik bir dil modeli, bir CPU üzerinde, 32GB RAM’le eğitildi. GPU’ya gerek yoktu.
Matris Çarpımları Neden Kritikti? Ve Neden Şimdi İstemedik?
Matris çarpımları, 1980’lerden beri sinir ağlarının temelidir. Ancak bu, onların en iyi yol olduğunun kanıtı değil, sadece en kolay yol olmasıydı. CUDA, bu yöntemi endüstriyel ölçeklendirmeyi sağladı. Ama bu, aynı zamanda bir tür teknolojik bağımlılık yarattı. Her yeni AI şirketi, her üniversite laboratuvarı, her startup, NVIDIA’nın ekosistemine bağımlı hale geldi. GPU fiyatları, elektrik tüketimi, veri merkezi maliyetleri — hepsi bu bağımlılığın maliyetiydi.
Bu araştırmacı, bu bağımlılığı sadece “daha verimli” bir yol olarak değil, bir ideolojik engel olarak gördü. “Matris çarpımları, bir araçtı. Ama biz onu bir inanç haline getirdik,” diyor. “Bir çocuğa sadece çekiç verirsen, her şey bir çivi gibi görünür.”
Ne Öğrenildi? Beş Temel İlke
- Hafıza, hızdan daha önemlidir: CPU’da büyük veri blokları taşımak yavaştır. Bu nedenle model, veriyi küçük, anlamlı parçalara böldü ve sadece kritik değişkenleri işlemeye odaklandı.
- Doğrusallık, öğrenmenin düşmanıdır: Geleneksel modeller, doğrusal dönüşümlerle karmaşıklık üretmeye çalışır. Bu model, doğrusal olmayan, hafıza tabanlı fonksiyonlarla karmaşıklığı doğrudan kodladı.
- Öğrenme, veri boyutuyla değil, veri kalitesiyle ilgilidir: 100GB veri yerine, 5GB seçkin, etiketlenmiş ve yapılandırılmış veriyle daha iyi sonuçlar alındı.
- GPU’lar, değil CPU’lar, daha akıllı olmalı: GPU’lar, çok sayıda işlemciye sahiptir ama her biri çok basittir. CPU’lar daha az çekirdeğe sahiptir ama her biri çok daha akıllı — ve bu, akıllı algoritmalarla daha etkili kullanılabilir.
- Eğitim, değil hesaplama, hedeftir: Modelin amacı, veriyle “daha fazla işlem yapmak” değil, “daha iyi öğrenmek”ti. Bu fark, tüm yaklaşımı değiştirdi.
Endüstriye Etkisi: NVIDIA’nın Monopoli Sarsılıyor mu?
Bu çalışma, özellikle gelişmekte olan ülkelerde büyük bir etki yaratabilir. Hindistan, Afrika, Latin Amerika’daki üniversiteler, NVIDIA’nın pahalı GPU’larına ulaşamıyor. Ama bu yöntemle, bir öğrenci, evdeki eski bir laptopla, bir dil modeli eğitebilir. Bu, AI’nın demokratikleşmesi anlamına geliyor.
NVIDIA, bu yöntemi “akademik bir egzersiz” olarak değerlendirmeye devam edebilir. Ama bu, 2010’larda “bunu yapmak imkânsız” dedikleri şeyin, 2026’da normal hale gelmesiyle aynı hikâye. Teknolojik devrimler, sadece büyük şirketlerin maliyetlerini düşürerek değil, temel varsayımları değiştirerek başlar.
Gelecek: AI’nın Yeni Dönemi
Bu başarı, yalnızca bir teknik değil, bir felsefi dönüşüm. AI, artık “ne kadar güçlü bir GPU’ya sahipsin?” sorusuna değil, “ne kadar akıllı bir algoritma tasarlayabiliyorsun?” sorusuna dönüyor. Bu, veri merkezlerinin enerji tüketimini %90 azaltabilir. Bu, klima kriziyle mücadelede bir adım olabilir. Bu, eğitimdeki eşitsizliği azaltabilir.
Gelecekte, AI modelleri, daha az enerji, daha az donanım ve daha fazla zekâyla eğitilecek. Bu araştırmacı, sadece bir modeli eğitmedi. Bir inancı yıktı. Ve belki de, yapay zekanın gerçek potansiyelini — yani, insan zekâsının değil, insan yaratıcılığının — yeniden keşfetti.


