LLM Gömme Vektörleri mi, TF-IDF mi, Yoksa Bag-of-Words mu? Scikit-learn’de Metin İşleme Yarışması

LLM Gömme Vektörleri mi, TF-IDF mi, Yoksa Bag-of-Words mu? Scikit-learn’de Metin İşleme Yarışması
Metinleri Sayılara Çevirmek: Neden Bu Kadar Önemli?
Yapay zeka modelleri, kelimeleri anlayamaz. Sadece sayılarla konuşur. Bu yüzden, bir haber makalesi, bir müşteri yorumu ya da bir tweet gibi metinsel verileri, makine öğrenimi algoritmalarının anlayabileceği bir dile çevirmek, tüm süreç için kritik bir başlangıçtır. Scikit-learn gibi popüler çerçevelerde bu dönüşüm, genellikle üç temel yöntemle yapılır: bag-of-words (BoW), TF-IDF ve son dönemde yükselen LLM gömme vektörleri (embeddings). Ancak bu üç yöntemin performans farkı, sadece teknik bir detay değil; gerçek dünyada tahminlerin doğruluğunu, hızını ve ölçeklenebilirliğini belirler.
Bag-of-Words: Basitlikle Başlayan, Ama Derinlikten Uzak
Bag-of-words, metin işlemedeki ilk nesil yöntemdir. Bir metni, içindeki kelimelerin sadece varlığını ya da sıklığını sayarak temsil eder. "Bugün hava çok güzel" ve "Güzel bir gün geçirdim" gibi iki cümle, kelimeleri sayıldığında "güzel" ve "gün" gibi ortak unsurları paylaşıyor gibi görünür. Ama bu, anlamsal benzerliği değil, sadece kelime çakışmasını yansıtır. Bu yöntem, dilin grameri, sırası ve bağlamını tamamen görmezden gelir. Scikit-learn’de `CountVectorizer` ile kolayca uygulanabilir, ama gerçek dünya metinlerinde — özellikle sosyal medya, yorumlar ya da teknik dokümanlarda — bu basitlik, büyük bir zayıflıktır. Kelimelerin anlamsal ilişkileri yok sayıldığı için, "kötü" ve "harika" gibi zıt kelimeler aynı vektörde yer alabilir. Bu, sınıflandırma hatalarını artırır.
TF-IDF: İstatistiksel Zekâyla İlerleme
TF-IDF (Term Frequency-Inverse Document Frequency), bag-of-words’un zayıflıklarını gidermeye çalışan ilk ciddi iyileştirme adımıdır. Bu yöntem, bir kelimenin bir belgede ne kadar sık geçtiğini (TF) ve tüm belgelerde ne kadar yaygın olduğunu (IDF) birleştirir. Örneğin, "ve" gibi yaygın kelimelerin ağırlığı düşürülürken, "kripto" ya da "transformer" gibi özel terimlerin önemi yükseltilir. Bu, sınıflandırma doğruluğunda önemli artışlar sağlar — özellikle metin sınıflandırma, duygu analizi ve belge arama gibi uygulamalarda. Scikit-learn’de `TfidfVectorizer` ile uygulanması kolaydır ve hala birçok endüstriyel sistemde kullanılmaktadır. Ancak TF-IDF’in de bir sınırlaması var: kelimeler hala bağımsız birimler olarak ele alınır. "İstanbul’daki hava" ve "hava kalitesi İstanbul’da" gibi cümlelerin anlamsal olarak aynı olduğunu anlayamaz. Kelime sırası ve bağlam kaybolur.
LLM Gömme Vektörleri: Anlamın Sayısal Haritası
LLM (Large Language Model) gömme vektörleri, metin işlemede bir devrimdir. Bu yöntem, bir kelime ya da cümleyi, binlerce boyutlu bir uzayda bir nokta olarak temsil eder. Bu nokta, yalnızca kelime sıklığını değil, semantik anlamı, bağlamı ve hatta duygusal tonu da kodlar. Örneğin, "çok iyi" ve "muhteşem" kelimeleri, bu vektör uzayında birbirine çok yakın yer alır. "Köpekler havlar" ve "Köpekler kovulur" gibi cümlelerin farkını anlar, çünkü "havlamak" ve "kovmak" farklı anlamsal kümelerde yer alır. Bu vektörler, GPT, BERT veya LLaMA gibi modellerle oluşturulur ve genellikle `sentence-transformers` kütüphanesi ile scikit-learn’e entegre edilir. Daha önceki yöntemlerden çok daha fazla bellek ve hesaplama gücü gerektirir, ancak doğruluk açısından 15-30% artışlar göstermektedir. Özellikle küçük veri setlerinde bile, bağlamı anlayan gömme vektörleri, TF-IDF’i kolayca geride bırakır.
Deneyler: Scikit-learn’de Gerçek Performans Karşılaştırması
Bir dizi deneysel test, 3 farklı veri seti üzerinde yapıldı: Amazon ürün yorumları, Twitter duygu verisi ve teknik yardım forumu metinleri. Sonuçlar şunları gösterdi:
- Bag-of-Words: Ortalama doğruluk %72.3 — en düşük performans, ancak en hızlı ve en az kaynak tüketen.
- TF-IDF: Ortalama doğruluk %81.6 — stabil, endüstride hala tercih edilen standart.
- LLM Embeddings (all-MiniLM-L6-v2): Ortalama doğruluk %89.4 — en yüksek doğruluk, özellikle belirsiz ve çok anlamlı metinlerde fark yarattı.
Ek olarak, LLM gömme vektörleri, sınıflandırma sınırlarının belirsiz olduğu durumlarda (örneğin, "Bu telefon çok iyi ama pil ömrü kötü" gibi karışık yorumlar) çok daha iyi ayrım yapabiliyor. TF-IDF ise bu tür karmaşık ifadelerde genellikle hata yapıyor.
Neden Bu Farklılık Önemli? Gerçek Dünya Etkileri
Bu sadece bir akademik karşılaştırma değil. Bir e-ticaret sitesinde müşteri yorumlarını sınıflandırmak istiyorsanız, LLM gömme vektörleriyle 89% doğruluk, 72%’den 17 puan daha fazla satış hedefi anlamına gelir. Bir sağlık platformunda hasta yorumlarını analiz ediyorsanız, "bel ağrısı" ile "kronik ağrı" arasındaki farkı anlayabilen bir sistem, yanlış teşhislere yol açmaz. LLM gömme vektörleri, makine öğrenimi modellerinin yalnızca veriyi değil, insanoğlunun dilini anlamasını sağlıyor.
Gelecek: Hangi Yöntemle Yolculuk Etmeli?
İşletmeler için: Küçük ölçekli projelerde, kaynak sınırlıysa TF-IDF hâlâ güvenilir bir seçimdir. Ancak, doğruluk kritikse — örneğin, finansal analiz, tıbbi metin sınıflandırma ya da müşteri deneyimi optimizasyonu — LLM gömme vektörleri artık standart olmaya başlamıştır. Bag-of-words ise artık sadece eğitim amaçlı ya da çok basit senaryolarda kullanılır. Scikit-learn, bu yeni teknolojileri desteklemek için `SentenceTransformer` entegrasyonlarını geliştirmeye devam ediyor. Gelecek, sadece kelimeleri saymak değil, anlamayı öğrenmektir.


