Genellemeyi Yeniden Düşünmek: Reasoning SFT'de Optimizasyon, Veri ve Model Kapasitesi

Yapay zekâ dünyasında en kritik sorunlardan biri, modellerin "öğrendiklerini nasıl genelleştirdiği". Son yıllarda, özellikle Reasoning SFT (Supervised Fine-Tuning) alanındaki çalışmalar, bu sorunun sadece veri miktarı veya model boyutuyla değil, optimizasyon süreçleri, veri kalitesi ve modelin derinlik yapısıyla derin bir ilişki içinde olduğunu gösteriyor. Yeni bir arXiv çalışması olan Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability, bu üç bileşeni bir arada ele alarak, geleneksel yaklaşımların temel varsayımlarını sorguluyor.

Genelleme Kırılganlığı: Veri Artırma Yeterli Değil

Çoğu model, eğitim verilerindeki örüntüleri ezberler, ancak yeni durumlarda bu örüntüleri uygulayamaz. Bu durum, özellikle matematiksel çıkarımlar, çok adımlı mantıksal zincirler veya görsel-sözel bağlamlarda belirgin hale gelir. Google DeepMind’in Improving Latent Generalization Using Test-time Compute çalışmasında, bu kırılganlığın adı "latent generalization deficit" olarak tanımlanıyor. Model, bilgileri ağırlıklarında saklıyor (in-weights learning), ancak bu bilgileri mantıksal olarak birleştiremiyor. Örneğin, "A, B’den büyüktür; B, C’den büyüktür; o halde A, C’den büyüktür" gibi basit bir transitif çıkarımı yapamayan modeller, veri artırma ile değil, test zamanı düşünme (thinking) ile düzeltiliyor. Yani, modelin sadece cevap üretmek yerine, uzun zincirler halinde kendi akıl yürütmesini gözlemleyip düzeltmesi gerekiyor.

Derinlik, Uzunluktan Daha Önemli: Depth-Recurrent Transformers

Stanford ve MIT’den araştırmacılar, Thinking Deeper, Not Longer adlı çalışmada, standart Transformer’ların sabit derinlik yapısının, çok katmanlı çıkarımları yapamamasının nedeni olduğunu savunuyor. Örneğin, bir grafikteki bir düğümün başka bir düğüme ulaşabilirliğini belirlemek için 5 adım gerekiyorsa, 12 katmanlı bir model bunu yapamaz, çünkü 12 katmanı sabit. Çözüm? Depth-Recurrent Transformer: Aynı ağırlıkları tekrar tekrar kullanarak, çıkarım derinliğini test zamanında dinamik olarak artırma. Bu mimari, üç kritik mekanizmayla destekleniyor: (1) Son çıktıyı yalnızca değerlendiren "silent thinking" hedefi, modelin ara adımlarda kolay yollara kaçmasını engelliyor; (2) "LayerScale" ile kararsız katmanların çıkarımsal durumlarını koruma; (3) "identity-biased recurrence" ile gradientlerin 20+ adımda akmasını sağlama. Bu, sadece daha uzun cevaplar üretmek değil, daha derin düşünmek anlamına geliyor.

Microsoft’un Phi-4-reasoning-vision-15B modeli ise bu teorileri pratikte test ediyor. 15 milyar parametrelik bu model, sadece çok fazla veriyle değil, dikkatle seçilmiş bir reasoning-nonreasoning veri karışımı ile eğitildi. Eğitimde, sadece "bu resimde ne var?" gibi basit sorular değil, "bu grafikteki eğilim, bu deneyin sonucuyla nasıl çelişiyor?" gibi çoklu modlu, çok adımlı sorular da yer aldı. Bu yaklaşım, modelin görsel algılamayı sadece tanıma değil, mantıksal olarak yorumlama yeteneğine dönüştürdü. Örneğin, bir laboratuvar görselindeki sıcaklık eğrisini okuyup, bunu bir kimyasal reaksiyonun hızı ile ilişkilendirebiliyor.

Bu durum, Google DeepMind’in "rethinking" kavramıyla da örtüşüyor. MLLM’ler (çoklu modlu büyük dil modelleri), metin üzerindeki düşünme süreçlerinde çok iyi olsalar da, görsel ipuçlarını sorgulamadan kabul ederler. GThinker adlı yeni model, bu eksikliği gidermek için "Cue-Rethinking" adlı bir mekanizma geliştirdi: İlk görsel yorumu yaptıktan sonra, bu yorumun mantıksal tutarlılığını kendisi sorguluyor ve gerektiğinde yeniden değerlendirme yapıyor. Bu, insanlar gibi değil, insanlardan daha kritik bir düşünme biçimi.

Şimdiye kadar, genelleme sorununa en çok "daha fazla veri, daha büyük model" cevabı verildi. Ancak bu yeni dizi çalışma, bu yaklaşımın sınırlarını gösteriyor. Veri miktarı arttıkça, modelin hataları daha da karmaşık hale geliyor — çünkü artık "hatalı örüntüleri daha iyi ezberliyor". Gerçek çözüm, veri miktarı değil, veri kalitesi, optimizasyonun doğası ve modelin düşünme derinliği ile ilgili. SFT sürecinde, sadece doğru cevapları değil, doğru çalışma sürecini de eğitmek gerekiyor.

Bu analizlerin ortak noktası: Genelleme, bir veri meselesi değil, bir mimarisi ve proses meselesi. Modelin ne kadar düşünüp, ne zaman sorgulayıp, nasıl yeniden değerlendirdiği — bunlar artık performansı belirleyen anahtar değişkenler. Reasoning SFT’deki genelleme kırılganlığı, artık "daha büyük" değil, "daha akıllı" olmakla çözülüyor. Ve bu akıllılık, sadece ağırlıklarda değil, çalışma sürecinde saklı.

Yapay Zeka Destekli İçerik

Kaynaklar: chatpaper.com • chatpaper.com • arxiv.org • openreview.net • arxiv.org

Genellemeyi Yeniden Düşünmek: Reasoning SFT'de Optimizasyon, Veri ve Model Kapasitesi