6 GPU, 200GB VRAM: Yerel AI İşletim Sisteminin Gerçek Sınırı Nerede?

Bir araştırmacı, 6 GPU’lu bir yerel LLM istasyonu kurarak yapay zekânın yerel hesaplama sınırlarını zorluyor. Ancak VRAM’dan daha kritik bir engel ortaya çıkıyor: CPU orchestration ve PCIe bant genişliği.

Reddit’te r/LocalLLaMA forumunda paylaşılan bu deney, sadece bir donanım gururu değil; yapay zekânın evlere, laboratuvarlara ve küçük şirketlere inmesinin teknik ve ekonomik gerçeklerini ortaya koyan bir laboratuvar raporu. Kullanıcı, 256GB ECC RAM, dual PSU, Open-Air Rack ve Gen4/Gen5 NVMe ile donatılmış bir Threadripper PRO sistemde, 200GB’dan fazla VRAM’i üç farklı açık kaynaklı akıl yürütme modelini aynı anda çalıştırmak için harcıyor. Başarılı bir deneme gibi görünse de, soru şu: Bu sistemde gerçek darboğaz ne?

VRAM Değil, Orkestrasyon: Gerçek Sınır

Çoğu kullanıcı, çoklu GPU sistemlerinde VRAM’in en büyük engel olacağını varsayar. Ancak bu durumda, 200GB+ VRAM’i tamamen doldurmak bile yeterli değil. Çünkü GPU’lar sadece veri depolama birimleri değil; veri akışını yöneten bir orkestratöre ihtiyaç duyarlar. İşte burada CPU ve PCIe bant genişliği devreye giriyor.

Threadripper PRO, 64 çekirdekli ve 128 iplikli bir işlemci. Görünüşte yeterli. Ama her GPU, model yüklerini belleğe yüklerken, verileri CPU üzerinden koordinasyonla paylaşmak zorunda kalıyor. Model arası veri aktarımı, özellikle farklı modellerin aynı anda tahmin üretirken birbirleriyle iletişim kurmaya çalıştığı durumlarda, PCIe 4.0/5.0 bant genişliğiyle sınırlanıyor. Bir GPU’dan diğerine 1GB veri aktarmak, 2-3 milisaniye sürüyor. 10 model arasında bu işlem tekrarlandığında, gecikme katlanıyor. Sonuç: VRAM dolu ama işlemci “kafayı karıştırıyor”.

PCIe Bant Genişliği: Gizli Kral

Gen5 NVMe sürücüler, 14 GB/s’ye varan hızlara sahip. Ama CPU’nun tüm 6 GPU’ya aynı anda eş zamanlı veri akışı sağlayabilmesi için, PCIe kanallarının tamamı kullanılabilmeli. Threadripper PRO 64, 128 PCIe 5.0 kanalı sunuyor — teorik olarak yeterli. Ama bu kanallar, GPU’lar, SSD’ler, ağ kartları ve diğer periferaller arasında bölüşülüyor. Gerçek hayatta, 6 GPU’yu tam kapasiteyle çalıştırmak için 128 kanalın en az 96’sının GPU’lara ayrılmış olması gerekir. Ancak ana kart tasarımının çoğu, bu dengelenmeyi yapamıyor. Sonuç: Bir GPU tam hızda çalışırken, diğerleri “yemek bekliyor”.

Yerel LLM’lerde Model Orkestrasyonu: Bir Sanat

Kullanıcı, farklı GPU atama stratejileri deniyor. Ama bu, sadece teknik bir seçim değil; bir sanat. Örneğin, bir modelin tamamını bir GPU’da çalıştırmak mı, yoksa bir modeli 2-3 GPU’da parçalayıp “tensor parallelism” ile dağıtmak mı daha verimli? Llama 3 70B gibi büyük modeller, 8x24GB GPU’ya ihtiyaç duyar. Ama 6 GPU’da 24GB+ modelleri çalıştırmak, bu modellerin bazılarını “quantized” (azaltılmış hassasiyetli) hale getirmek zorunda kalınması anlamına geliyor. Bu da doğruluk kaybına yol açıyor.

Ek olarak, vLLM, TensorRT-LLM veya Hugging Face TGI gibi orkestrasyon araçları, çoklu GPU’da eşzamanlı tahminleri yönetmek için optimize edilmiş. Ancak bu araçlar, genellikle NVIDIA CUDA ekosistemine bağımlı. AMD veya Intel GPU’ları kullanıyorsanız, bu sistemler tamamen işe yaramaz. Kullanıcı, NVIDIA GPU’ları kullandığını varsayarsak bile, bu araçların çoğu, “dynamic batching” ve “continuous batching” gibi optimizasyonları yalnızca tek bir GPU veya 1-2 GPU’da etkili şekilde kullanıyor. 6 GPU’da bu optimizasyonları senkronize etmek, hala açık bir araştırma alanı.

Soğutma ve Güç: Sadece Donanım Değil, Mühendislik

Open-air rack, estetik bir tercih değil, bir zorunluluk. 6 GPU, 1500W’dan fazla güç tüketebilir. Dual PSU bu gücü sağlıyor ama, her PSU’nun ayrı bir devre şeması üzerinde çalışması gerekir. Aksi halde, voltaj dalgalanmaları sistem çökmesine yol açar. Soğutma ise daha kritik: 6 GPU aynı anda 90°C’ye çıkarsa, thermal throttling devreye girer ve performans yarıya iner. Kullanıcının açık raf sistemi, bu sıcaklığı kontrol altında tutuyor — ancak bu, bir ofis ortamında işlenebilir bir çözüm mü? Yoksa bir veri merkezi mi gerektiriyor?

Ne Anlama Geliyor? Yerel AI’nın Gerçek Fiyatı

Bu sistem, yaklaşık 40.000-60.000 USD değerinde. Ama bu, sadece donanım değil; 300+ saatlik kurulum, hata ayıklama, yazılım optimizasyonu ve sürekli izleme maliyeti. Yerel LLM’ler, “gizlilik” ve “veri kontrolü” için cazip görünüyor. Ama bu sistemdeki her bir saniyelik gecikme, her bir modelin kaybettiği doğruluk, her bir GPU’nun beklediği zaman — hepsi, kullanıcıya “neden bu kadar zor?” diye soru sorduruyor.

Gerçek anlamda, 200GB VRAM’i elde etmek kolay. Ama bu VRAM’i verimli bir şekilde kullanmak, bir kuantum bilgisayarın mantık kapılarını yönetmek kadar karmaşık. Yerel AI, artık sadece “güçlü donanım” meselesi değil; “doktorlar gibi” çalışan yazılım mühendisleri, sistem mimarları ve veri akışı optimizasyoncuları gerektiriyor. Bu sistem, bir bilgisayar değil; bir yapay zeka orkestrası.

Gelecek: Daha Az GPU, Daha Akıllı Yazılım

Belki de gelecekte, 6 GPU’ya gerek olmayacak. NVIDIA’nın NIM ve Hopper mimarisiyle, bir GPU 100GB+ VRAM’i ve 1000+ TFLOPS performansı sunuyor. Ancak bu, sadece bir teknoloji değil; bir felsefe değişimi: “Daha çok GPU” yerine, “daha akıllı orkestrasyon”. Yerel LLM’lerin geleceği, donanım rekabetinde değil, yazılım ve sistem entegrasyonunda saklı.

Yapay Zeka Destekli İçerik

Kaynaklar: www.reddit.com

6 GPU, 200GB VRAM: Yerel AI İşletim Sisteminin Gerçek Sınırı Nerede?