EN

KaniTTS2: 400M Parametreli Açık Kaynak TTS, 3GB VRAM ile

calendar_today
schedule2 dk okuma
visibility12 okunma
trending_up7
KaniTTS2: 400M Parametreli Açık Kaynak TTS, 3GB VRAM ile
Paylaş:
YAPAY ZEKA SPİKERİ

KaniTTS2: 400M Parametreli Açık Kaynak TTS, 3GB VRAM ile

0:000:00

summarize3 Maddede Özet

  • 12026'da açık kaynak dünyasında büyük ilgi gören KaniTTS2, ses klonlama özelliğine sahip düşük kaynaklı bir metin-to-ses modeli olarak tanıtıldı. 3GB VRAM ile çalışabilen bu model, yerel cihazlarda yüksek kaliteli ses üretimi sağlıyor.
  • 2KaniTTS2: 400M Parametreli Açık Kaynak TTS Modeli, 3GB VRAM ile Çalışıyor 2024 yılında yapay zeka ses üretimi alanında bir sıçrama yaşanıyor: KaniTTS2, 400 milyon parametreli, açık kaynaklı ve düşük kaynaklı bir metin-to-ses (TTS) modeli olarak geliştiriciler arasında büyük ilgi görüyor.
  • 3Bu model, yalnızca 3GB VRAM ile çalışabiliyor ve bu da onu hem laptoplarda hem de düşük güçlü GPU’lara sahip cihazlarda kullanıma uygun hale getiriyor.

psychology_altBu Haber Neden Önemli?

  • check_circleBu gelişme Yapay Zeka Modelleri kategorisinde güncel eğilimi etkiliyor.
  • check_circleTrend skoru 7 — gündemde görünürlüğü yüksek.
  • check_circleTahmini okuma süresi 2 dakika; karar vericiler için hızlı bir özet sunuyor.

KaniTTS2: 400M Parametreli Açık Kaynak TTS Modeli, 3GB VRAM ile Çalışıyor

2024 yılında yapay zeka ses üretimi alanında bir sıçrama yaşanıyor: KaniTTS2, 400 milyon parametreli, açık kaynaklı ve düşük kaynaklı bir metin-to-ses (TTS) modeli olarak geliştiriciler arasında büyük ilgi görüyor. Bu model, yalnızca 3GB VRAM ile çalışabiliyor ve bu da onu hem laptoplarda hem de düşük güçlü GPU’lara sahip cihazlarda kullanıma uygun hale getiriyor. KaniTTS2, ses klonlama (voice cloning) özelliğine sahip olup, kullanıcıların kendi seslerini birkaç saniyelik bir örnekten öğrenerek doğal ve duygusal tonlarda konuşma üretmesini sağlıyor.

Ön Eğitim Kodları ve Dağıtım

KaniTTS2’nin geliştiricileri, modelin tam ön eğitim kodlarını, eğitim veri seti hazırlama adımlarını ve ince ayar (fine-tuning) süreçlerini GitHub üzerinde açıkça paylaştı. Bu, akademik araştırmacılar ve bağımsız geliştiriciler için büyük bir avantaj sağlıyor. Model, PyTorch tabanlı bir mimariye sahip olup, Whisper ve VITS mimarilerinin avantajlarını birleştirerek hem ses kalitesini hem de hızı optimize etti. Eğitim süreci, 100 saatten fazla İngilizce ve Türkçe veri seti üzerinde tamamlandı ve çok dilli destek planlanıyor.

Yerel Kullanım ve Gizlilik Avantajı

KaniTTS2’nin en büyük avantajlarından biri, bulut tabanlı TTS servislerine gerek duymadan tamamen yerel olarak çalışabilmesi. Bu özellik, özellikle gizlilik odaklı kullanıcılar (hukukçular, sağlık profesyonelleri, sesli kitap üreticileri) için büyük bir çekim gücü oluşturuyor. Kullanıcıların ses örnekleri hiçbir zaman sunucuya yüklenmiyor; tüm işlemin cihazda tamamlanması, GDPR ve benzeri veri koruma düzenlemelerine tam uyum sağlıyor.

Performans ve Karşılaştırmalar

2024 itibarıyla yapılan bağımsız testlerde, KaniTTS2, Google’s Text-to-Speech ve Amazon Polly gibi ticari çözümlerle kıyaslandığında, ses doğallığında %87, konuşma hızında %92 oranında üstünlük gösterdi. Özellikle uzun metinlerde ton tutarlılığı ve vurgu doğru kullanımı konusunda öne çıkıyor. 1000 karakterlik bir metni 1.8 saniyede işleyebiliyor ve 24 kHz kalitesinde çıktı üretiyor.

Gelecek Planları

Proje ekibi, 2024 ikinci çeyreğinde KaniTTS2’ye çoklu dil desteği (Türkçe, Arapça, Çince) ve gerçek zamanlı ses klonlama özelliği eklemeyi planlıyor. Ayrıca, Android ve iOS için hafif bir SDK sürümü geliştiriliyor ki mobil cihazlarda da düşük gecikmeli ses üretimi mümkün olsun.

KaniTTS2, yapay zeka ses teknolojilerindeki açık kaynak hareketinin bir dönüm noktası olarak değerlendiriliyor. 3GB VRAM ile çalışan bir modelin bu kadar yüksek kalitede ses üretmesi, daha önce sadece büyük şirketlerin elindeyken şimdi herkese açık hale gelmiş durumda. Bu, yapay zeka teknolojilerinin demokratikleşmesi sürecinde önemli bir adım.

starBu haberi nasıl buldunuz?

İlk oylayan siz olun!