EN

Google’nin Sırrı: Maskelenmiş Güncellemeler, Derin Öğrenme Optimizasyonunu Nasıl Devrildi?

calendar_today
schedule4 dk okuma süresi dk okuma
visibility6 okunma
trending_up34
Google’nin Sırrı: Maskelenmiş Güncellemeler, Derin Öğrenme Optimizasyonunu Nasıl Devrildi?
Paylaş:
YAPAY ZEKA SPİKERİ

Google’nin Sırrı: Maskelenmiş Güncellemeler, Derin Öğrenme Optimizasyonunu Nasıl Devrildi?

0:000:00

Adaptif Optimizasyonların Yeni Dönüştürücüsü: Maskelenmiş Güncellemeler

Derin öğrenme modellerinin eğitimi, son yıllarda neredeyse tamamen adaptive optimizasyon algoritmalarına—özellikle Adam ve bunun türevlerine—bağlı hale geldi. Bu algoritmalar, her parametrenin gradyanını kendi hızına göre ölçeklendirerek, daha verimli ve kararlı bir eğitim süreci sunuyordu. Ancak Google’ın yeni bir çalışması, bu köklü inançları sarsan bir keşif yaptı: Adaptif optimizasyonlarda, gradyan güncellemelerinin sadece bir kısmını maskelenerek atlamak, modelin performansını artırmaktadır. Bu, tamamen tersine dönük gibi görünse de, deneysel sonuçlar bu basit fikrin şaşırtıcı etkinliğini kanıtlıyor.

Neden Bu Kadar Şaşırtıcı?

Tradisyonel düşünceye göre, optimizasyon algoritmaları, her parametrenin gradyanını tam olarak kullanmakla daha iyi sonuç verir. Özellikle LLM’lerde, milyarlarca parametre ve binlerce GPU saatine sahip bu sistemlerde, her küçük gradyanın bile birikimli etkisinin büyük olduğu varsayılır. Ancak Google’ın Taejong Joo, Wenhan Xia, Cheolmin Kim ve ekip üyeleri, bu varsayımı test etmek için bir basit fikri uyguladılar: Her güncelleme adımında, gradyan vektörlerinin rastgele bir kısmını sıfırlayarak ‘maskeli’ hale getirdiler. Yani, bazı parametrelerin güncellenmesini tamamen engellediler—ve sonuçta, modelin doğruluğu arttı, kayıplar düştü ve genelleme iyileşti.

Bu, neredeyse bir ‘yapay gürültü’ gibi görünse de, aslında tam tersine bir düzenleyici (regularization) etkisi yaratıyor. Ekip, bu maskelenmenin, aşırı uyum (overfitting) ve optimizasyonun ‘hızlı yol’ tuzağına düşme eğilimini azalttığını keşfetti. Adam gibi optimizasyonlar, özellikle yüksek boyutlu uzaylarda, gradyanların yönünü aşırı güvenerek, lokal minimumlara hızlıca sapabilir. Maskelenmiş güncellemeler, bu güveni sarsarak, modelin daha dengeli ve geniş bir çözüm uzayını keşfetmesini sağlıyor.

Momentum-Aligned Masking: Sadece Rastgele Değil, Akıllı Maskeleme

İlk deneylerde rastgele maskeleme bile etkiliydi, ancak ekip daha da ileri gitti. Momentum-Aligned Update Masking adını verdikleri yeni yöntemde, maskelenen parametrelerin seçimini, momentum (hız) vektörlerinin yönüyle eşleştirdiler. Yani, momentum’un düşük olduğu veya ters yönde hareket eden parametreler daha çok maskelendi. Bu, modelin ‘kararsız’ veya ‘ters yönde’ hareket eden parametrelerin gürültülü güncellemelerinden korunmasını sağlıyor. Sonuç? Adam’ın yerini alabilecek bir alternatif değil, onu daha güçlü hale getiren bir katman.

Deneyler, LLaMA, Gemma ve PaLM gibi 7B ila 70B parametreli modellerde yapıldı. Maskelenmiş güncellemelerle eğitilen modeller, aynı hesaplama maliyetiyle %1.2 ila %3.8 arasında daha düşük kayıp verdi. Daha çarpıcı olanı, bu modellerin test setlerinde daha az hata yapması ve daha az aşırı uyum göstermesiydi. Yani, sadece daha hızlı değil, daha akıllıca öğreniyorlardı.

İnsan Düşünceye Nasıl Uyuyor?

Bu teknik, insan öğrenme sürecine benzer bir yapı sunuyor. İnsanlar, sürekli tüm bilgileri tekrarlamak yerine, bazı bilgileri ‘unutma’ veya ‘göz ardı etme’ yeteneğiyle daha derin öğrenme sağlarlar. Bu, kognitif yükü azaltır ve kalıcı hafızayı güçlendirir. Google’ın bu çalışması, yapay sinir ağlarının da bu tür bir ‘bilgisel disiplin’ kazanabileceğini gösteriyor. Her gradyanı takip etmek, kafa karıştırıcı olabilir. Bazen, gözden kaçırmak, daha iyi anlamayı sağlar.

Endüstriye Etkisi: Daha Az GPU, Daha İyi Sonuç

AI endüstrisi, milyarlarca dolar harcayarak daha büyük modeller ve daha fazla veri arıyor. Ancak bu çalışma, ‘büyüklük’ yerine ‘zekâ’ odaklı bir dönüşümün başladığını gösteriyor. Maskelenmiş güncellemeler, herhangi bir optimizasyon algoritmasına eklenebilir ve ekstra hesaplama gerektirmez. Yani, mevcut eğitim boru hatlarına sadece birkaç satır kod ekleyerek, model performansını artırabilirsiniz. Bu, özellikle küçük şirketler ve akademik laboratuvarlar için büyük bir avantaj. GPU maliyetlerini %10-15 oranında düşürmek, sürdürülebilir AI’ın anahtarı olabilir.

Gelecek: Optimizasyonların Yeni Çağına Giriş

ArXiv’de yayınlanan bu çalışma, yalnızca bir teknik değil, bir felsefi değişimdir. Optimizasyon algoritmaları, artık ‘her şeyi kullanmak’ yerine ‘doğru şeyi seçmek’ üzerine odaklanmaya başlıyor. Maskelenmiş güncellemeler, gradyanların ‘kuvveti’ değil, ‘anlamı’ üzerine kuruluyor. Gelecekte, optimizasyonlar, sadece gradyanları değil, parametrelerin ‘fiziksel anlamlarını’ ve ‘eğitim döngüsündeki rollerini’ de anlayacak şekilde tasarlanabilir.

Bu keşif, 2026 yılında yayınlanan bir makale olarak görünse de, aslında 2025’in son çeyreğinde Google’ın iç laboratuvarlarında test edilmiş bir buluş. ArXiv’deki yayın, bu tekniklerin açık kaynaklı topluluklara sunulmasıyla başlıyor. Artık, LLM’lerin eğitimi için yeni bir standart doğuyor: Her şeyi kullanmak değil, doğru şeyi kullanmak.

Yapay Zeka Destekli İçerik
Kaynaklar: arxiv.orgwww.reddit.com

starBu haberi nasıl buldunuz?

İlk oylayan siz olun!

KONULAR:

#adaptive optimizers#masking updates#Google AI#LLM training#Adam optimizer#deep learning#model regularization#update masking#AI efficiency#gradient masking