Qwen3.5-35B-A3B Lokalde Çalıştı: 3090 Üzerinde 1324 Token/s Hızla AI Devrimi Başlıyor

Yerel AI’nın Yeni Sıçraması: Qwen3.5-35B-A3B, 3090’da 1324 Token/s Hızla Çalışıyor

Geçtiğimiz hafta Reddit’te r/LocalLLaMA forumunda paylaşılan bir test, yapay zeka dünyasında sessiz bir deprem yarattı. Qwen3.5-35B-A3B adlı, Çinli Alibaba’nın geliştirdiği 35 milyar parametrelik büyük dil modeli, yalnızca üç adet NVIDIA RTX 3090 GPU ile lokal olarak çalıştırıldı ve 1324 token/saniye hızla metin üretti. Bu sayı, sadece bir rakam değil; kişisel verilerle çalışan, buluta bağlı olmayan, özgür bir AI neslinin gerçekleşme ihtimalini gösteren bir sinyal.

Neden Bu Kadar Önemli? Bulutun Sonu Değil, Yeni Bir Özgürlük

Şu ana kadar büyük dil modelleri (LLM’ler) Amazon Web Services, Google Cloud veya Azure gibi bulut servislerine bağımlıydı. Kullanıcılar, verilerini bu platformlara göndererek cevap alıyordu. Ama Qwen3.5-35B-A3B’nin GGUF formatında lokalde çalıştırılması, bu döngüyü tamamen değiştirdi. GGUF, llama.cpp ekosisteminin sunduğu, CPU ve GPU’da verimli çalışan bir model serileştirme biçimi. Bu sayede, modelin tamamı bir bilgisayarda saklanabiliyor — hiçbir veri internete çıkmadan, hiçbir şirketin veri politikalarına tabi kalmadan çalışabiliyor.

Reddit kullanıcısı, modeli gokmakog tarafından paylaşılan GGUF dosyasını indirerek çalıştırdı. Modelin boyutu 34.36 GiB, ancak 99 katmanı CUDA üzerinden işlemciye yüklenerek, sadece 3090’ların VMM (Virtual Memory Management) özelliği sayesinde bellek aşırı yüklemesi olmadan çalıştırıldı. Bu, 3090 gibi eski nesil GPU’ların bile modern AI modellerini sürdürebileceğini kanıtlıyor.

Performans Tablosu: Teknik Detaylar ve Gerçekler

Test sonucunda elde edilen veriler dikkat çekici:

Metin Üretimi (Text Generation - tg128): 93.20 token/saniye — bu, bir insanın okuma hızının yaklaşık 5 katı.
Metin Tahmini (Perplexity - pp512): 1324.37 token/saniye — bu, modelin bir metni anlama ve tahmin etme hızı. Bu değer, GPT-4 Turbo’nun bulut tabanlı performansına yakın bir seviyede.
GPU Kullanımı: Üç 3090 aynı anda kullanıldı, ancak modelin tamamı tek bir GPU’ya sığmayan bir yapıda olduğu için dağıtık işlem yapmak yerine, VMM ile bellek yönetimi sağlandı.

İlginç bir detay: Qwen3.5-35B-A3B, model adında "Mixture of Experts" (MoE) yapısına işaret ediyor. Yani, her soruya cevap verirken tüm 35 milyar parametre aktif değil; sadece ilgili "uzmanlar" (expert) modüller devreye giriyor. Bu, hem hızı artırıyor hem de kaynak tüketimini azaltıyor. Bu yapı, daha önce yalnızca Google’ın Gemini Ultra gibi çok büyük modellerde görülmüştü — şimdi ise bir bireysel kullanıcı, kendi masasında bu teknolojiyi kullanabiliyor.

Qwen3.5-27B: Bir Çöküş, Ama Bir İpucu

Testte aynı zamanda Qwen3.5-27B-Q8_0 modeli de denenmişti. Ancak llama-bench adlı performans ölçüm aracında çöktü. Bu çöküş, modelin GGUF sürümünde bir uyumsuzluk veya bellek yönetimi hatası olabileceğini gösteriyor. Ancak bu, modelin kendisinin zayıf olduğunu değil; daha iyi optimizasyon gerektirdiğini ifade ediyor. Bu tür çöküşler, açık kaynak topluluğunun hızla düzeltme imkanı sunuyor. GitHub ve Hugging Face’teki geliştiriciler, bu hatayı birkaç gün içinde gideriyor.

Ne Anlama Geliyor? Kişisel AI Devrimi

Qwen3.5-35B-A3B’nin lokalde çalıştırılması, sadece teknik bir başarı değil; bir felsefi değişim. Artık AI, sadece büyük şirketlerin elinde değil, bir öğrenci, bir yazar, bir araştırmacı, bir gazetecinin elinde olabilir. Daha önce bir doktorun hasta verilerini buluta yüklemesi gerekiyordu. Şimdi, bu veriler lokalde kalıyor, model de onun bilgisayarında çalışıyor — GDPR ve HIPAA gibi düzenlemelerin bile uygulanamadığı yerlerde bile veri güvenliği sağlanıyor.

Gelecekte, her bilgisayarda bir Qwen3.5-35B-A3B olacak. Her telefon, her tablet, her masaüstü — kendi özel AI’sı ile. Bulut, artık bir tercih değil, bir zorunluluk olmaktan çıkıyor. Bu, AI’nın demokratikleşmesi demek. Bu, teknolojinin insanın hizmetine dönmesi demek.

Şu anda, bu modeli çalıştırmak için 3090’lar gerekiyor. Ama 2025’te bu, 4090 yerine 3060’da bile mümkün olacak. Çünkü açık kaynak topluluğu, her gün daha küçük, daha hızlı, daha verimli modeller üretiyor. Qwen3.5-35B-A3B, bu yolun ilk büyük taşlarından biri.

Yeni Bir Dönem Başlıyor

Alibaba, Qwen serisini açık kaynak olarak sunarak, GPT serisiyle rekabet etmek istiyor. Ama bu sadece bir rekabet değil — bir dönüşüm. Google, OpenAI ve Meta’nın kontrol ettiği AI ekosistemi, artık açık kaynak geliştiricilerin, hobbyistlerin ve bireysel kullanıcıların elinde yeniden şekilleniyor. Qwen3.5-35B-A3B, bu dönüşümün ilk göstergesi. Ve bu kez, merkezi otorite değil, dağıtık topluluk, geleceği şekillendiriyor.

Yapay Zeka Destekli İçerik

Kaynaklar: www.reddit.com

Qwen3.5-35B-A3B, RTX 3090’da 1324 Token/s ile Lokalde

Qwen3.5-35B-A3B, RTX 3090’da 1324 Token/s ile Lokalde

summarize3 Maddede Özet

psychology_altBu Haber Neden Önemli?

Qwen3.5-35B-A3B Lokalde Çalıştı: 3090 Üzerinde 1324 Token/s Hızla AI Devrimi Başlıyor

Yerel AI’nın Yeni Sıçraması: Qwen3.5-35B-A3B, 3090’da 1324 Token/s Hızla Çalışıyor

Neden Bu Kadar Önemli? Bulutun Sonu Değil, Yeni Bir Özgürlük

Performans Tablosu: Teknik Detaylar ve Gerçekler

Qwen3.5-27B: Bir Çöküş, Ama Bir İpucu

Ne Anlama Geliyor? Kişisel AI Devrimi

Yeni Bir Dönem Başlıyor

starBu haberi nasıl buldunuz?

KONULAR:

auto_storiesBunları da Okuyun

2026 LLM Tartışması: Yapay Zeka Öncüleri LeCun ve Hinton Neden Çatıştı?

Sıfır Atışlı Hedef Tanıma: GoalLadder ile Robotik Devrim (2026)

ICRL 2026: Microsoft'un Devrimsel AI'sı Kendi Hatalarını Düzeltmeyi Öğreniyor