24GB VRAM ile Qwen3.5-35B’yi Nasıl Çalıştırıyorsunuz? Yeni GGUF Sırrı Şaşırttı

24GB VRAM’le 35 milyar parametreli bir modeli çalıştırmak: Mümkün mü?

Geçtiğimiz hafta, Reddit’in AI ve yerel modeller odaklı topluluğu r/LocalLLaMA’da bir paylaşımla tüm AI entüzyastlarını sarsan bir haber çıktı. Kullanıcı VoidAlchemy, Qwen3.5-35B-A3B modelini 24GB VRAM’li cihazlarda çalıştırabilecek şekilde yeniden yapılandıran, tamamen özgün bir GGUF dosyası sundu. Bu dosya, beklenenin aksine Q8_0, Q4_1 gibi popüler quantizasyon tiplerinden ziyade sadece Q4_0’ı kullanıyor — ve bu basitlik, şaşırtıcı bir performans artışı getirdi.

Neden Q4_0? Neden Sadece Bu?

Geleneksel akıl yürütme, daha yüksek doğruluk için Q8_0 veya Q5_K_M gibi quantizasyonlar tercih edilmesi gerektiği yönündeydi. Ancak VoidAlchemy, bu varsayımı tamamen devre dışı bıraktı. Onun analizi, Vulkan ve ROCm gibi GPU sürücü arayüzlerinin, Q4_0 gibi ‘eski’ quantizasyon türlerindeki kernel işlemlerini çok daha verimli hale getirdiğini gösterdi. Yani: Daha düşük bit başına kelime (BPW) oranı, daha hızlı hesaplama demekti — özellikle AMD ve Vulkan destekli sistemlerde.

İşte burada kritik fark ortaya çıkıyor: Q4_0, 4.901 bit başına kelime (BPW) ile Q5_K_M gibi modern alternatiflerden daha düşük bir veri yoğunluğuna sahip. Bu, bellek kullanımını 19.776 GiB’e düşürüyor — tam olarak 24GB VRAM’li bir ekran kartının (örneğin AMD Radeon 7900 XTX veya NVIDIA RTX 4080) sınırlarını aşmadan. Bu, daha önce sadece 30GB+ VRAM’li sistemlerde çalıştırılabilecek bir modeli, evdeki bir gaming PC’de çalıştırma imkanı sunuyor.

Performans: Sadece Boyut Değil, Hız da Önemli

VoidAlchemy’in paylaşımında dikkat çeken ikinci nokta, modelin “çok iyi perplexity” değeri. Perplexity, bir dil modelinin tahmin doğruluğunu ölçen bir metriktir; daha düşük değerler daha iyi anlam ifade eder. Q4_0 versiyonunun, Q5 ve Q8 versiyonlarına kıyasla sadece %1-2 daha yüksek bir perplexity değeri vermesi, kalite kaybının neredeyse algılanamaz düzeyde olduğunu gösteriyor. Yani: Hız arttı, bellek azaldı, kalite neredeyse korundu.

Bu, özellikle Vulkan arka planını kullanan Linux ve Windows sistemlerinde daha da belirginleşiyor. Kullanıcılar, Strix Halo ve 7900 XTX gibi AMD kartlarında 15-22 token/saniye hızlarda çalıştırabildiğini rapor ediyor. Bu, aynı donanımda Q5_K_M versiyonuna göre %30-40 daha hızlı bir performans demek.

Mac Kullanıcıları İçin Ne Durum?

Apple kullanıcıları ise biraz daha karmaşık bir durumda. M1/M2/M3 serisi çipler, Metal (MLX) arka planını kullanır ve bu arayüz, Q4_0 gibi eski quantizasyonlarla tam olarak optimize edilmemiştir. VoidAlchemy, Mac kullanıcılarının bu versiyonu deneyip sonuç paylaşmasını istiyor — çünkü MLX’in Q4_0 üzerindeki performansı henüz net değil. Eğer MLX’te de bu hız artışı sağlanırsa, Apple kullanıcıları için bir dönüm noktası olabilir.

Bu Sadece Bir Dosya Değil, Bir Felsefe

VoidAlchemy’in bu çalışması, AI dünyasında bir felsefi değişim işaret ediyor: “Daha fazla bit = daha iyi” anlayışı artık geçerli değil. Artık “doğru arayüz + doğru quantizasyon = maksimum verim” kuralı öne çıkıyor. Bu, özellikle açık kaynaklı modellerin yaygınlaşmasıyla birlikte, donanım sınırlarına bağlı kalmadan daha fazla insanın güçlü AI’ları kullanabilmesi anlamına geliyor.

Qwen3.5-35B, Alibaba’nın ürettiği, Çinli araştırmacıların en son gelişmeleriyle güçlendirilmiş bir model. 35 milyar parametre ile GPT-3.5 düzeyinde bir yeteneğe sahip. Artık bu modeli, 24GB VRAM’li bir kartla evde çalıştırmak mümkün. Ve bu, yalnızca bir teknik başarı değil — demokratikleşen AI’nın bir sembolü.

Nasıl Deneyebilirsiniz?

İlk adım: Hugging Face’teki Q4_0 dosyasını indirin. Ardından, llama.cpp veya ik_llama.cpp gibi uyumlu bir arka plan kullanarak çalıştırın. CUDA, Vulkan veya ROCm sürücülerine sahip iseniz, özellikle performans farkını hissedeceksiniz.

Yeni bir topluluk hareketi başlıyor: Donanım sınırlarına meydan okuyan, sadece bir dosya ile yapay zekayı evlere taşıyanlar. VoidAlchemy’in bu çalışması, bir teknik ipucu değil — bir devrimin başlangıcı.

Yapay Zeka Destekli İçerik

Kaynaklar: www.reddit.com

24GB VRAM ile Qwen3.5-35B’yi Q4_0 ile nasıl çalıştırırsınız?

24GB VRAM ile Qwen3.5-35B’yi Q4_0 ile nasıl çalıştırırsınız?

summarize3 Maddede Özet

psychology_altBu Haber Neden Önemli?

24GB VRAM ile Qwen3.5-35B’yi Nasıl Çalıştırıyorsunuz? Yeni GGUF Sırrı Şaşırttı

24GB VRAM’le 35 milyar parametreli bir modeli çalıştırmak: Mümkün mü?

Neden Q4_0? Neden Sadece Bu?

Performans: Sadece Boyut Değil, Hız da Önemli

Mac Kullanıcıları İçin Ne Durum?

Bu Sadece Bir Dosya Değil, Bir Felsefe

Nasıl Deneyebilirsiniz?

starBu haberi nasıl buldunuz?

KONULAR:

auto_storiesBunları da Okuyun

2026 LLM Tartışması: Yapay Zeka Öncüleri LeCun ve Hinton Neden Çatıştı?

Sıfır Atışlı Hedef Tanıma: GoalLadder ile Robotik Devrim (2026)

ICRL 2026: Microsoft'un Devrimsel AI'sı Kendi Hatalarını Düzeltmeyi Öğreniyor