Ev NAS'ı Devasa 80B Dil Modelini İşlemci Ekran Kartında Çalıştırdı: Saniyede 18 Token

Ev NAS'ı Devasa 80B Dil Modelini İşlemci Ekran Kartında Çalıştırdı: Saniyede 18 Token
Ev Sunucusundan Beklenmeyen Yapay Zeka Başarısı
Yerel büyük dil modelleri (LLM) genellikle binlerce dolarlık harici GPU'lar (NVIDIA RTX serisi gibi) gerektirir. Ancak Reddit'te paylaşılan bir deneyim, bu algıyı temelden sarsıyor. Bir kullanıcı, öncelikli amacı veri depolamak ve medya sunmak olan ev yapımı bir NAS (Ağa Bağlı Depolama) sistemini, 80 milyar parametreli devasa bir dil modelini çalıştıracak şekilde optimize etti. En çarpıcı detay ise, bu işlemi tamamen işlemciye entegre ekran kartı (iGPU) ile, harici bir GPU olmadan gerçekleştirmiş olması.
"İki Kutu Açıklaması Yapmak İstemiyordum": Projenin Çıkış Noktası
Paylaşıma göre kullanıcının temel motivasyonu basit ve birçok teknoloji meraklısına tanıdık geliyor: Evde iki ayrı güçlü sistemin varlığını eşine açıklama zorluğu. "Karıma, bazen halüsinasyon gören bir sohbet robotuyla konuşmak için neden ikinci bir kutuya ihtiyacım olduğunu açıklamak istemedim" diyen kullanıcı, ihtiyacı olan NAS ile merak saldığı yerel LLM'leri tek bir sistemde birleştirmeye karar verdi. Reddit'teki anlatımına göre, sistemini kurarken normal bir NAS'tan daha güçlü bileşenler seçti ve bu riskin karşılığını aldı.
Teknik Altyapı: Sıradışı Bir NAS Konfigürasyonu
Sistem, sıradan bir tüketici donanımından ziyade, bilinçli bir şekilde seçilmiş bileşenlerden oluşuyor:
- Ana Sistem: Minisforum N5 Pro
- İşlemci: AMD Ryzen AI 9 HX PRO 370 (12 çekirdek/24 iş parçacığı, 16 RDNA 3.5 CU birimine sahip entegre grafik)
- Bellek: 96GB DDR5-5600 RAM (2x48GB)
- Depolama: 5x 26TB Seagate Exos HDD (RAIDZ2 ile ~70TB kullanılabilir) ve 2x 1.92TB NVMe SSD (ZFS metadata için)
- İşletim Sistemi: TrueNAS SCALE
Bu konfigürasyon, sistemin Jellyfin ile donanımsal video çeviriminden, otomasyon araçlarına (Sonarr, Radarr) ve konteyner yönetimine kadar birçok görevi sorunsuz yerine getirmesini sağlıyordu. Yapay zeka deneyi ise sistemin "ikinci bir hayatı" oldu.
80 Milyar Parametreli Dev, Entegre Ekran Kartında Canlandı
Kullanıcının test ettiği model, Qwen3-Coder-Next adlı, 80 milyar parametreye sahip ve "Uzmanlar Karışımı" (Mixture of Experts - MoE) mimarisi kullanan bir model. Bu mimari, her token (kelime parçacığı) işlendiğinde modelin sadece küçük bir alt kümesini (bu durumda 3 milyar parametre) aktif olarak kullanmasını sağlayarak verimliliği artırıyor. Model, Q4_K_M kuantizasyonu (hafif doğruluk kaybı karşılığında bellek ve hesaplama optimizasyonu) ile hazırlanmış ve llama.cpp yazılımının Vulkan backend'i kullanılarak çalıştırılmış.
Sonuç: Sistem, harici bir GPU olmaksızın, tamamen işlemcinin RDNA 3.5 mimarili entegre grafik birimini kullanarak saniyede 18 token işleme hızına ulaştı. Bu hız, akıcı bir sohbet ve kodlama asistanı deneyimi için pratik bir eşiğin üzerinde kabul ediliyor.
Ne Anlama Geliyor? Erişilebilirlik ve Verimlilikte Yeni Bir Çağ
Bu başarı, kişisel yapay zeka ve ev sunucuları ekosistemi için birkaç önemli çıkarım barındırıyor:
- Maliyet Etkinliği: Özel, pahalı GPU'lar olmadan büyük dil modellerine erişim mümkün hale geliyor. Yatırım, çok amaçlı bir ev sunucusuna yapılıyor.
- Yazılım Optimizasyonunun Gücü: llama.cpp ve Vulkan gibi açık kaynaklı araçların olgunlaşması, donanımın sınırlarını zorlamayı mümkün kılıyor. Kuantizasyon teknikleri, model boyutlarını ve hesaplama gereksinimlerini büyük ölçüde düşürüyor.
- Modern iGPU'ların Potansiyeli: AMD'nin RDNA mimarili ve Intel'in Arc mimarili son nesil entegre grafik çözümleri, yalnızca video oynatmak için değil, hafif ve orta ölçekli yapay zeka iş yükleri için de ciddi bir işlem gücü sunuyor.
- Çok Amaçlı Ev Sunucularının Yükselişi: "NAS" tanımı, artık sadece dosya depolama ve medya sunucusu olmanın ötesine geçiyor. Bu tür sistemler, kişisel bulut, otomasyon merkezi ve şimdi de özel bir yapay zeka sunucusu haline geliyor.
Gelecek ve Sınırlamalar
Kullanıcı "hala optimize ediyorum" notunu düşerek daha da iyi sonuçlar beklediğini belirtiyor. Ancak, bu yaklaşımın sınırları da mevcut. 80B gibi dev modeller, 7B veya 13B parametreli daha küçük modellere kıyasla çok daha yavaş çalışacak ve bellek tüketimi çok daha yüksek olacaktır. Ayrıca, eğitim değil sadece çıkarım (inference) için uygun bir kurulum. Yine de, bu deney, özel donanım engelini aşmak isteyen meraklılar için güçlü bir ilham kaynağı ve ev yapımı sistemlerin ulaşabileceği noktayı gösteren somut bir kanıt niteliğinde.


