EN

SDXL LoRA Eğitiminde Yüz Tutarlılığı Neden Bozuluyor? Illustrious-XL'de Stil Kayması ve Çözüm Yolları

calendar_today
schedule4 dk okuma süresi dk okuma
visibility0 okunma
SDXL LoRA Eğitiminde Yüz Tutarlılığı Neden Bozuluyor? Illustrious-XL'de Stil Kayması ve Çözüm Yolları
Paylaş:
YAPAY ZEKA SPİKERİ

SDXL LoRA Eğitiminde Yüz Tutarlılığı Neden Bozuluyor? Illustrious-XL'de Stil Kayması ve Çözüm Yolları

0:000:00

SDXL LoRA Eğitimi: Karakter Tutarlılığı Başarılı, Ama Yüzler Neden Kayıyor?

Bir Stable Diffusion geliştiricisi, Illustrious-XL (Wai) modeli için bir LoRA (Low-Rank Adaptation) eğitirken, karakterin poz ve kıyafet tutarlılığını başarıyla koruyor ama yüz yapıları ve sanat stili, eğitim veri setinden beklenen şekilde çıkmıyor. Bu durum, AI görsel üretimindeki en kritik ve en az anlaşılan sorunlardan biri: stil kayması. Bu sorun, sadece bir teknik hata değil, veri kalitesi, etiketleme stratejisi ve modelin öğrenme mekanizmaları arasında bir dengesizliğin sonucu.

Veri Seti: Kalite mi, Miktar mı, Yoksa İçerik Dengesi mi?

Reddit kullanıcısı, ilk 50 görselden oluşan veri setini tamamen revize ederek, sadece 25 adet yüksek kaliteli görsel seçti. Bu seçim, veri seti büyüklüğüne dair yaygın yanlış inancı yıkmak için önemli bir adım: 25 kaliteli görsel, 50 düşük kaliteli görselden daha etkili olabiliyor. Ancak burada gizli bir kapan var: Bu 25 görsel, Nano Banana Pro gibi başka bir AI modeli tarafından üretilmiş. Yani, kullanıcı, bir AI modelinin çıktısını başka bir AI modeliyle eğitmek için kullanıyor. Bu, ‘AI-to-AI eğitim’ olarak bilinen bir pratik — ve bu, veri setindeki orijinal insan sanatı kaynaklı özelliklerin kaybolmasına neden oluyor.

  • 12 yüz yakın çekimi: Yüz detayları için ideal görünüyor ama bu görsellerin hepsi aynı AI stilinde mi? Eğer tüm yüzler aynı sanatçı tarzından türemişse, model yalnızca o tarzı öğrenir — Illustrious-XL’nin orijinal stilini değil.
  • 8 üst vücut, 5 tam vücut: Poz çeşitliliği iyi ama, bu görsellerde yüzlerin ışıklandırma, cilt tonu ve dudak/kaş yapıları nasıl etiketlendi? Eğer etiketler sadece ‘kız, uzun saç, mavi göz’ gibi genel terimlerse, model ‘nasıl çizildiğini’ değil, ‘ne olduğunu’ öğrenir.

Etiketleme: ‘Nasıl’ mı, ‘Ne’ mi?

LoRA eğitimi, özellikle SDXL’de, etiketlerin (caption) çok hassas olmasıyla çalışır. Kullanıcının etiketleme stratejisi açıkça belirtilmemiş ama, sorunun kökeni muhtemelen burada. Örneğin, bir görseldeki yüzün ‘yumuşak çizgiler, pastel tonlar, anime-style glaze’ gibi tarzı tanımlayan etiketler yoksa, model bunu ‘yüz’ olarak değil, ‘genel bir görsel’ olarak algılar. Illustrious-XL’nin orijinal stili, belirli bir anime-illustration hybrid — klasik Japon manga çizgileriyle modern 3D gölgeleme karışımı. Eğer bu tarz, etiketlerde ‘anime’, ‘illustration’ gibi genel kelimelerle değil, ‘düşük kontrast, yumuşak kenarlar, ışık yansıması ile vurgulanmış gözler’ gibi teknik tanımlarla etiketlenmemişse, model bu stilin ‘kalbi’ni öğrenemez.

Modelin ‘İçsel Çatışması’: Tutarlılık mı, Stil mi?

SDXL LoRA, temel modelin (Illustrious-XL) ağırlıklarına küçük değişiklikler yaparak çalışır. Ancak bu değişiklikler, yalnızca ‘karakterin kimliği’ (örneğin, saç rengi, göz şekli) için değil, aynı zamanda ‘nasıl çizildiği’ için de uygulanır. Eğer veri seti, bir karakterin 10 farklı pozunu içeriyor ama her pozda yüz tarzı farklıysa (örneğin, bazıları anime, bazıları realist), model ‘kimlik’ (identity) öğrenebilir ama ‘tarz’ (style) öğrenemez — çünkü tarz tutarsız. Bu, modelin içindeki bir çatışma yaratır: ‘Bu yüz aynı kişi mi?’ diye sorar, ama ‘Bu çizgi aynı stil mi?’ diye soramaz. Sonuç: Karakter tutarlı, ama yüzler kayıyor.

Çözüm Yolları: Sadece Daha Fazla Görsel Değil

Yeni veri eklemek, bu sorunu çözmeyecek. Aksine, daha fazla AI-üretilmiş veri, daha fazla kaymaya neden olabilir. Gerçek çözüm üç adımda:

  1. Veri Setini İnsan Sanatıyla Karıştır: Illustrious-XL’nin orijinal veri seti, insan sanatçıların çizimlerinden türemişti. Bu nedenle, 5-10 adet orijinal çizim (Pinterest, ArtStation’dan) veri setine eklenmeli — özellikle yüz detayları için.
  2. Etiketlerde Stil Bilgisi Eklenmeli: Her görsel için ‘style: Illustrious-XL’, ‘line_weight: thin’, ‘shading: soft gradient’, ‘eye_reflection: double highlight’ gibi teknik etiketler eklenmeli. Kohya_ss, bu tür detaylı etiketleri destekliyor.
  3. Training Parameters’da ‘Network Dim’ ve ‘Alpha’ Ayarlarını Düşür: Yüksek dim (örneğin 128) ve alpha (1.0) değerleri, modelin aşırı uyum sağlayarak orijinal stili ‘ezmesine’ neden olur. 64 dim ve 0.7 alpha gibi daha düşük değerler, daha ince ayar yapar ve orijinal modelin stilini korur.

Ne Anlama Geliyor? AI Sanatında ‘Orijinallik’ Yitiriyor

Bu durum, sadece bir teknik sorun değil, AI sanatının genel bir krizini yansıtır: Sanatçılar, AI’ya nasıl çizdiğini öğretmiyor, AI’ya ne çizdiğini söylüyor. Illustrious-XL, bir sanatçı tarzını modelleyen bir modeldi. Ama artık, bu tarzın kendisi, başka AI’ların ürettiği verilerle bozuluyor. Bu, AI sanatının ‘kendini kopyalama’ döngüsüne girdiğini gösteriyor — ve bu, orijinal sanatçıların tarzını yok etmeye başlıyor.

İşte bu yüzden, bu kullanıcıya verilen ‘yardım’ sorusu, aslında bir uyarı: AI’ya ne öğretiyorsan, onun da seni nasıl anladığını düşün. Karakter tutarlılığı kolay. Ama bir stili canlı tutmak, bir dilin nüanslarını korumak kadar zor. Ve bu, yalnızca teknik bir sorun değil — bir kültürel sorun.

Yapay Zeka Destekli İçerik
Kaynaklar: www.reddit.com

starBu haberi nasıl buldunuz?

İlk oylayan siz olun!

KONULAR:

#SDXL LoRA#Illustrious-XL#AI görsel üretim#stil kayması#karakter tutarlılığı#Kohya_ss#AI etiketleme#AI sanatı krizi