Küçük Veriyle Büyük Sonuç: Qwen 4B ile Niche Kod Üretiminde İnce Ayarların Sırrı

Bir tez öğrencisinin laboratuvarında, yalnızca 800 kod örneğiyle bir yapay zeka modelini bir uzmana dönüştürmek, teknoloji tarihinin en ince dengelerinden birini test ediyor. Qwen 4B — 4 milyar parametrelik bir açık kaynak dil modeli — bu deneyin merkezinde yer alıyor. Ama bu sadece bir teknik deneme değil; küçük veriyle büyük etki yaratmanın modern AI çağında ne anlama geldiğini gösteren bir felsefi deney.

Reddit’te r/LocalLLaMA forumunda paylaşılan bu hikaye, sadece bir teknik soru değil, bir kahramanlık öyküsü. Kullanıcı, 8B parametrelik bir modeli denediğinde, donanım maliyeti ve verimlilik açısından "gerçek bir küçük dil modeli (SLM)" olamadığını fark etti. 4B’ye geçiş, sadece bir teknik tercih değil, bir ideolojik karar: "Küçük, ama akıllı olmalı." Bu karar, AI dünyasında giderek artan bir trendi temsil ediyor: Büyük modellerin hevesi yerine, verimli, erişilebilir ve özel amaçlı çözümlerin yükselişi.

Veri: 800 Örnek, 1000 Soru

700-800 {prompt, completion} çifti, bir AI modeli için neredeyse bir şiir kadar az. Geleneksel AI eğitimi, milyonlarca veri noktası gerektirir. Ama bu durumda, kalite sayıdan daha önemli. Verilerin çoğu, büyük modellerden distile edilmiş kod parçaları ve sentetik olarak üretilmiş komutlarla oluşturulmuş. Yani, modelin öğrenmesi gereken "doğru cevaplar" aslında başka bir yapay zekanın ürettiği bir yansıma. Bu, bir tür epistemik döngü yaratıyor: AI, AI’dan öğreniyor. Bu durum, eğitim verilerinin "orijinalliğini" sorgulamayı zorunlu kılıyor. Gerçek dünya kodu mu, yoksa bir algoritmanın idealleştirilmiş versiyonu mu?

Ama en büyük tehdit, verideki gürültü. Kod dosyalarında yer alan image path’ler, placeholder’lar, açıklamalar — bunlar, modelin öğrenmesi gereken şey değil. Ama model bunları da "dil" olarak algılayabilir. İşte burada aşırı uyum (overfitting) tehlikesi doğuyor: Model, 800 örneği ezberliyor, ama gerçek dünyada yeni bir TypeScript fonksiyonu gördüğünde, sadece ezberlediği kalıpları tekrarlıyor. Bu, bir öğrenciye 10 soru verip sınavda aynı soruları sormak gibi. Başarılı olabilir, ama anlamamış olur.

Teknik Detaylar: LoRA, Dropout ve Hedef Modüller

Çözüm, teknik ince ayarlarda yatıyor. Kullanıcı, LoRA (Low-Rank Adaptation) yöntemini tercih etti — parametrelerin sadece küçük bir kısmını güncelleyerek, tüm modeli yeniden eğitmek yerine, hafif bir "yeni kişilik" ekliyor. r=64 ve lora_alpha=128 gibi değerler, bu adaptasyonun ne kadar güçlü olacağını belirliyor. Daha yüksek alpha, daha fazla orijinal ağırlığa güven demek; daha düşük dropout (burada 0.05), modelin gürültüyü görmezden gelme eğilimini artırıyor.

En kritik seçim, target_modules: q_proj, k_proj, v_proj, o_proj ve gate_proj. Bu modüller, dikkat mekanizmalarını ve MLP (çok katmanlı algılayıcı) ağlarını temsil ediyor. Yani, modelin sadece kodun yapısını değil, mantığını ve akışını öğrenmesini hedefliyor. Bu, sadece sözdizimi değil, "programcılık zihniyeti"ni eğitmek demek. Gate_proj’in dahil edilmesi, özellikle ilginç: Bu, modelin kod bloklarını nasıl seçeceğini, hangi fonksiyonu ne zaman çağıracağını öğrenmesini sağlıyor — tam da TypeScript’in dinamik ve tip güvenli yapısına uygun.

Donanım ve Gerçeklik: A100 ile Küçük Veri

Google Colab’deki A100 GPU, bu küçük veriyle nasıl bir ilişki kuruyor? A100, 40GB HBM2 belleğe sahip ve 312 TFLOPS performans sunan bir dev. Ama burada, bu dev, 800 satırlık bir veri setiyle çalışıyor. Bu, bir Ferrari’yi şehir içinde park etmek gibi. Enerji verimliliği, hız ve maliyet açısından, bu bir çelişki değil, bir strateji. Modelin küçük olması, eğitim süresini kısaltıyor. LoRA sayesinde, 10 saatte tamamlanabilecek bir eğitimi, 3 saate indiriyor. Bu, tez öğrencileri için hayati: Zaman, en kıymetli kaynak.

Yeni Bir Paradigma: Küçük Veri, Büyük Zeka

Bu durum, AI dünyasında bir dönüm noktası işaret ediyor. Artık, büyük veri ve büyük modeller tek çözüm değil. "Niche AI" — özel alanlara odaklanmış, küçük veriyle eğitilmiş, donanımsal olarak erişilebilir modeller — geleceğin anahtarını tutuyor. Qwen 4B gibi modeller, akademik araştırmalarda, küçük şirketlerde ve açık kaynak topluluklarda devrim yaratıyor. Aşırı uyum, veri gürültüsü ve sınırlı kaynaklar, artık sadece engeller değil, yaratıcılığın tetikleyicileri haline geliyor.

Tezinin sonunda, bu öğrenci sadece bir kod üretici model değil, bir felsefe de kuruyor: "Yeterli veri yoksa, akıllı ayarlarla yeterli olur." Bu, teknolojinin değil, zekanın gerçek anlamını hatırlatıyor: Kaynaklar sınırlıysa, zekâ, onları nasıl kullanacağını bilmelidir.

Yapay Zeka Destekli İçerik

Kaynaklar: www.merriam-webster.com • www.reddit.com

Küçük Veriyle Büyük Sonuç: Qwen 4B ile Niche Kod Üretiminde İnce Ayarların Sırrı