Qwen3.5-35B-A3B, RTX 3090’da 1324 Token/s ile Lokalde

Qwen3.5-35B-A3B, RTX 3090’da 1324 Token/s ile Lokalde
summarize3 Maddede Özet
- 1Yerel AI kullanıcıları, Qwen3.5-35B-A3B modelini 3090 GPU’lar üzerinde başarıyla çalıştırdı. Bu sadece bir performans testi değil; kişisel verilerle çalışan, buluta bağımlı olmayan bir yapay zeka neslinin doğuşu.
- 2Qwen3.5-35B-A3B Lokalde Çalıştı: 3090 Üzerinde 1324 Token/s Hızla AI Devrimi Başlıyor Yerel AI’nın Yeni Sıçraması: Qwen3.5-35B-A3B, 3090’da 1324 Token/s Hızla Çalışıyor Geçtiğimiz hafta Reddit’te r/LocalLLaMA forumunda paylaşılan bir test, yapay zeka dünyasında sessiz bir deprem yarattı.
- 3Qwen3.5-35B-A3B adlı, Çinli Alibaba’nın geliştirdiği 35 milyar parametrelik büyük dil modeli, yalnızca üç adet NVIDIA RTX 3090 GPU ile lokal olarak çalıştırıldı ve 1324 token/saniye hızla metin üretti.
psychology_altBu Haber Neden Önemli?
- check_circleBu gelişme Yapay Zeka Modelleri kategorisinde güncel eğilimi etkiliyor.
- check_circleTrend skoru 12 — gündemde görünürlüğü yüksek.
- check_circleTahmini okuma süresi 4 dakika; karar vericiler için hızlı bir özet sunuyor.
Qwen3.5-35B-A3B Lokalde Çalıştı: 3090 Üzerinde 1324 Token/s Hızla AI Devrimi Başlıyor
Yerel AI’nın Yeni Sıçraması: Qwen3.5-35B-A3B, 3090’da 1324 Token/s Hızla Çalışıyor
Geçtiğimiz hafta Reddit’te r/LocalLLaMA forumunda paylaşılan bir test, yapay zeka dünyasında sessiz bir deprem yarattı. Qwen3.5-35B-A3B adlı, Çinli Alibaba’nın geliştirdiği 35 milyar parametrelik büyük dil modeli, yalnızca üç adet NVIDIA RTX 3090 GPU ile lokal olarak çalıştırıldı ve 1324 token/saniye hızla metin üretti. Bu sayı, sadece bir rakam değil; kişisel verilerle çalışan, buluta bağlı olmayan, özgür bir AI neslinin gerçekleşme ihtimalini gösteren bir sinyal.
Neden Bu Kadar Önemli? Bulutun Sonu Değil, Yeni Bir Özgürlük
Şu ana kadar büyük dil modelleri (LLM’ler) Amazon Web Services, Google Cloud veya Azure gibi bulut servislerine bağımlıydı. Kullanıcılar, verilerini bu platformlara göndererek cevap alıyordu. Ama Qwen3.5-35B-A3B’nin GGUF formatında lokalde çalıştırılması, bu döngüyü tamamen değiştirdi. GGUF, llama.cpp ekosisteminin sunduğu, CPU ve GPU’da verimli çalışan bir model serileştirme biçimi. Bu sayede, modelin tamamı bir bilgisayarda saklanabiliyor — hiçbir veri internete çıkmadan, hiçbir şirketin veri politikalarına tabi kalmadan çalışabiliyor.
Reddit kullanıcısı, modeli gokmakog tarafından paylaşılan GGUF dosyasını indirerek çalıştırdı. Modelin boyutu 34.36 GiB, ancak 99 katmanı CUDA üzerinden işlemciye yüklenerek, sadece 3090’ların VMM (Virtual Memory Management) özelliği sayesinde bellek aşırı yüklemesi olmadan çalıştırıldı. Bu, 3090 gibi eski nesil GPU’ların bile modern AI modellerini sürdürebileceğini kanıtlıyor.
Performans Tablosu: Teknik Detaylar ve Gerçekler
Test sonucunda elde edilen veriler dikkat çekici:
- Metin Üretimi (Text Generation - tg128): 93.20 token/saniye — bu, bir insanın okuma hızının yaklaşık 5 katı.
- Metin Tahmini (Perplexity - pp512): 1324.37 token/saniye — bu, modelin bir metni anlama ve tahmin etme hızı. Bu değer, GPT-4 Turbo’nun bulut tabanlı performansına yakın bir seviyede.
- GPU Kullanımı: Üç 3090 aynı anda kullanıldı, ancak modelin tamamı tek bir GPU’ya sığmayan bir yapıda olduğu için dağıtık işlem yapmak yerine, VMM ile bellek yönetimi sağlandı.
İlginç bir detay: Qwen3.5-35B-A3B, model adında "Mixture of Experts" (MoE) yapısına işaret ediyor. Yani, her soruya cevap verirken tüm 35 milyar parametre aktif değil; sadece ilgili "uzmanlar" (expert) modüller devreye giriyor. Bu, hem hızı artırıyor hem de kaynak tüketimini azaltıyor. Bu yapı, daha önce yalnızca Google’ın Gemini Ultra gibi çok büyük modellerde görülmüştü — şimdi ise bir bireysel kullanıcı, kendi masasında bu teknolojiyi kullanabiliyor.
Qwen3.5-27B: Bir Çöküş, Ama Bir İpucu
Testte aynı zamanda Qwen3.5-27B-Q8_0 modeli de denenmişti. Ancak llama-bench adlı performans ölçüm aracında çöktü. Bu çöküş, modelin GGUF sürümünde bir uyumsuzluk veya bellek yönetimi hatası olabileceğini gösteriyor. Ancak bu, modelin kendisinin zayıf olduğunu değil; daha iyi optimizasyon gerektirdiğini ifade ediyor. Bu tür çöküşler, açık kaynak topluluğunun hızla düzeltme imkanı sunuyor. GitHub ve Hugging Face’teki geliştiriciler, bu hatayı birkaç gün içinde gideriyor.
Ne Anlama Geliyor? Kişisel AI Devrimi
Qwen3.5-35B-A3B’nin lokalde çalıştırılması, sadece teknik bir başarı değil; bir felsefi değişim. Artık AI, sadece büyük şirketlerin elinde değil, bir öğrenci, bir yazar, bir araştırmacı, bir gazetecinin elinde olabilir. Daha önce bir doktorun hasta verilerini buluta yüklemesi gerekiyordu. Şimdi, bu veriler lokalde kalıyor, model de onun bilgisayarında çalışıyor — GDPR ve HIPAA gibi düzenlemelerin bile uygulanamadığı yerlerde bile veri güvenliği sağlanıyor.
Gelecekte, her bilgisayarda bir Qwen3.5-35B-A3B olacak. Her telefon, her tablet, her masaüstü — kendi özel AI’sı ile. Bulut, artık bir tercih değil, bir zorunluluk olmaktan çıkıyor. Bu, AI’nın demokratikleşmesi demek. Bu, teknolojinin insanın hizmetine dönmesi demek.
Şu anda, bu modeli çalıştırmak için 3090’lar gerekiyor. Ama 2025’te bu, 4090 yerine 3060’da bile mümkün olacak. Çünkü açık kaynak topluluğu, her gün daha küçük, daha hızlı, daha verimli modeller üretiyor. Qwen3.5-35B-A3B, bu yolun ilk büyük taşlarından biri.
Yeni Bir Dönem Başlıyor
Alibaba, Qwen serisini açık kaynak olarak sunarak, GPT serisiyle rekabet etmek istiyor. Ama bu sadece bir rekabet değil — bir dönüşüm. Google, OpenAI ve Meta’nın kontrol ettiği AI ekosistemi, artık açık kaynak geliştiricilerin, hobbyistlerin ve bireysel kullanıcıların elinde yeniden şekilleniyor. Qwen3.5-35B-A3B, bu dönüşümün ilk göstergesi. Ve bu kez, merkezi otorite değil, dağıtık topluluk, geleceği şekillendiriyor.


