Qwen3-Next 80B MoE, RTX 50 Serisi ile 39 Token/s Hızda Çalışıyor: Gizli Optimizasyon Sırrı Çözüldü

AI'nın Yeni Sınırı: İki GPU ile 80 Milyar Parametreli Model 39 Token/s Hızda Çalışıyor

Geçtiğimiz hafta, Reddit'te r/LocalLLaMA topluluğunda paylaşılan bir deney, yapay zekâ dünyasında sessiz bir deprem yarattı. Bir kullanıcı, RTX 5070 Ti ve RTX 5060 Ti gibi iki farklı GPU'yu bir araya getirerek, Qwen3-Next 80B MoE modelini 39 token/s hızda çalıştırmayı başardı — bu, önceki 6.5 token/s performansının altı katından fazlası. Kimse bu çözümü açıklayamamıştı. Kimse bu optimizasyonu denememişti. Bu, sadece bir hız artışı değil; yerel AI modelleme tarihinin bir dönüm noktası.

Neden Bu Kadar Önemli?

Qwen3-Next 80B MoE, 80 milyar parametreli bir MoE (Mixture of Experts) modeli. Bu tür modeller, yalnızca gerekli olan ‘uzman’ nöron gruplarını aktive ederek verimliliği artırır. Ancak bu yapı, CPU ve GPU arasındaki iş birliğini çok daha karmaşık hale getirir. Normalde, bu modelin çalıştırılması için 100+ GB VRAM veya bulut tabanlı GPU kümeleri gerekirdi. Ama bu kullanıcı, sadece 32 GB VRAM ve 64 GB sistem belleğiyle, bir masaüstü bilgisayarda bu performansı yakaladı.

Ne Yapıldı? Gizli Çözüm Nedir?

Çözüm, teknik detaylarla dolu bir kahraman hikayesi. Kullanıcı, llama.cpp’in CUDA 12.4 sürümünü kullanıyor, ancak anahtar, modelin yüklenme ve dağıtım stratejisindeydi. Standart ayarlarla, modelin tüm ağırlıkları CPU’ya yüklenir, ardından GPU’lara parçalı olarak aktarılır. Bu süreçte, CPU tamamen doymuş olur — hatta ‘düşünme’ (thinking) fazında GPU’lar %0’da kalır. Yani model, CPU’ya bağlanmıştı, GPU’lar sadece pasif birer gözlük gibi kullanılıyordu.

Kullanıcının keşfi: MoE modellerinde, her uzman (expert) bloğunu ayrı ayrı GPU’lara sabitlemek. Yani, 5070 Ti’ye 4 uzman, 5060 Ti’ye 3 uzman atandı. Bu, CPU’nun tüm ağırlıkları tek seferde yüklemesini önledi. Aynı anda, modelin aktif parçaları GPU’larda kalır, CPU sadece kontrol sinyallerini iletir. Ayrıca, --n-gpu-layers parametresiyle her GPU’ya özel katman sayısı ayarlandı ve --tensor-split ile bellek paylaşımı dengelendi.

Bu basit ama derin değişiklik, CPU kullanımını %55’den %15’e düşürdü. GPU’lar ise 10-40%’den 85-95%’e çıktı. Sistem belleği tüketimi 34 GB’dan 18 GB’a düştü. Performans artışı değil, bir yapısal yeniden tasarım oldu.

Neden Kimse Bu Çözümü Bulamadı?

Varsayımların tuzakları: Çoğu kullanıcı, MoE modellerini tek GPU’da çalıştırmayı denedi ve başarısız oldu. İki GPU’yu birlikte kullanmak fikri dahi aklına gelmedi.
Yanlış araçlar: Hemen hemen tüm eğitim dokümanları, Hugging Face veya vLLM gibi bulut odaklı araçları öneriyor. Yerel, düşük kaynaklı çalışma üzerine az araştırma var.
Performans ölçümünün yanıltıcılığı: 6.5 token/s hızı, “çalışıyor” olarak kabul ediliyordu. Kimse “neden bu kadar yavaş?” diye sormadı.

Geleceğe Yansımaları

Bu çözüm, yalnızca bir kullanıcı için değil, tüm yerel AI kullanıcıları için bir kılavuz haline geldi. Artık 32 GB VRAM ile 80B sınıfı modeller çalıştırılabilir. Bu, şirketlerin bulut maliyetlerini %70 azaltmasını sağlayabilir. Eğitim kurumları, bireysel araştırmacılar ve küçük AI startup’ları artık büyük modelleri elde tutabilecek.

Başka bir deyişle: AI’nın geleceği, sadece daha güçlü GPU’larla değil, daha akıllı dağıtım stratejileriyle yazılmış.

Ne Demek Bu? Artık AI, Herkesin Elinde

Bu başarı, teknolojinin demokratikleşmesinin en net örneğidir. Daha önce sadece Google veya OpenAI gibi devlerin elindeyken, şimdi bir bireysel mühendis, iki tüketici seviyesi GPU ile aynı performansı yakaladı. Bu, AI’da ‘kaynak yoğunluğu’ kavramının yeniden tanımlanması anlamına geliyor. Artık ‘ne kadar güçlü donanım?’ değil, ‘nasıl verimli kullanıyorsun?’ sorusu öne çıkıyor.

Gelecek ay, llama.cpp’in yeni sürümünde bu optimizasyonlar otomatik hale gelecek. Ama bugün, bu çözüm, bir mühendisin sabrı, deneyim ve tek bir satır kodla değiştirilen bir dünya.

Şimdi soru şu: Sizce bu tür çözümler, AI’da ‘gizli bilgi’ olarak kalacak mı? Yoksa, herkesin elindeki bir standart haline mi gelecek?

Yapay Zeka Destekli İçerik

Kaynaklar: www.merriam-webster.com • www.reddit.com

Qwen3-Next 80B MoE, RTX 50 Serisi ile 39 Token/s Hızda Çalışıyor: Gizli Optimizasyon Sırrı Çözüldü