Personalized Benchmarking 2026: LLM’ler Kullanıcı Tercihlerini Gerçekten Anlıyor mu? | HorizonBen...

Personalized Benchmarking 2026, yapay zekânın sadece doğru cevap vermekle kalmayıp, kullanıcıların gizli tercihlerini, duygusal tonlarını ve zamanla değişen düşüncelerini anlamasını gerektiren yeni bir ölçüm paradigmaları. 2025 yılında ICLR’de sunulan ve arXiv’te detaylı analizleri paylaşılan HorizonBench çalışması, bu konuda çarpıcı bir gerçekliği ortaya koyuyor: LLM’ler, kullanıcı tercihlerini sadece geçici olarak hatırlıyor — uzun vadeli ve dinamik kişiselleştirme için yetersiz kalıyor.

1. Uzun Vadeli Hafıza: LLM’ler Neden Unutuyor?

Siyan Zhao ve ekibi, OpenReview’da yayımlanan çalışmada, GPT-4, Claude 3 ve Llama 3 gibi popüler modellerin, kullanıcıların 10’larca etkileşim boyunca belirttiği tercihlere (örneğin, ‘daha sade dil kullan’, ‘bilimsel kaynakları tercih et’, ‘mizahi cevaplar verme’) nasıl tepki verdiğini test etti. Sonuçlar şaşırtıcı:

İlk iki etkileşimde: %87 tercih takibi
8. etkileşimden sonra: %38 tercih takibi
15. etkileşimde: %19 oranında tercihler hatırlanıyor

Bu, LLM’lerin tercihleri ‘hatırlıyor’ gibi görünmesine rağmen, aslında bir kısa süreli bellek mekanizması kullandığını gösteriyor. Personalized Benchmarking, bu durumu ‘otomatik tamamlama’ olarak tanımlıyor — değil ‘anlama’.

1.1. Kişiselleştirme Illüzyonu

Kullanıcılar, LLM’lere ‘beni anlıyorsun’ diye hissediyor. Ama bu bir illüzyon. Model, tercihleri bir veri noktası olarak kaydediyor, ancak bunu bir kimlik, yaşam tarzı veya değer sistemi olarak içselleştirmiyor. Sonuç? Ciddi etik riskler:

Healthcare LLM: ‘Sadece doğrudan cevap ver’ diyen kullanıcı, 15. soruda ‘daha fazla empati göster’ diye yanıt alıyor
Eğitim asistanı: ‘Kısa cevaplar istiyorum’ diyen öğrenci, uzun teorik açıklamalar alıyor

2. HorizonBench: Dinamik Tercih Takibinin Yeni Standartı

arXiv’de yayımlanan HorizonBench çalışması, kullanıcı tercihlerinin zaman içinde nasıl evrildiğini simüle eden ilk veri seti. Örnek senaryo:

Hafta 1: ‘Felsefi cevaplar istiyorum’
Hafta 2: ‘Korkutucu gerçekleri söyle’
Hafta 3: ‘İyimser bir bakış açısı ver’

Geleneksel LLM’ler bu dinamik değişimi tamamen kaçırdı. Modeller, son komutla geçmiş profilleri çakıştırarak tutarsız yanıtlar üretti. Bu, sadece teknik bir sorun değil — toplumsal bir kriz.

2.1. Duygusal Hassasiyet ve Kayıp Bağlantı

Depresyon yaşayan bir kullanıcı, bir hafta önce ‘Sadece dinle, hiçbir şey söyleme’ demişti. Şimdi ‘Bugün çok kötü hissediyorum’ diyor. LLM, geçmişe erişemiyor. Standart bir ‘olumlu düşün’ cevabı veriyor. Bu, Personalized Benchmarking’in en kritik başarısızlığı: Geçmiş yok, sadece an var.

2.2. HorizonBench’in Yeni Metrikleri

HorizonBench, LLM’leri şu yeni metriklerle ölçüyor:

Tutarlılık: Tercihler zaman içinde tutarlı mı?
Hafıza Derinliği: Kaç etkileşim sonra tercih hatırlanıyor?
Dinamik Uyum: Tercih değiştiğinde model adapte olabiliyor mu?

Şu anda hiçbir LLM, bu üç metrikten de yüksek puan alamıyor.

3. Gelecek: LLM’ler Bir İlişki mi, Yoksa Araç mı?

AI araştırmacıları, LLM’leri ‘kullanıcıya ait bir ayna’ olarak tanımlıyor: ‘Senin son söylediğin şeyi yansıtır, geçmişindeki değişimleri değil.’

Personalized Benchmarking artık sadece ‘doğru cevap’ oranlarına bakmıyor. Seni anlamak için, LLM’lerin senin yaşam öyküsünü, sessiz dileklerini ve duygusal dönüşümünü hatırlaması gerekiyor. Şu anda, bu öykü sadece bir veri seti olarak kaydediliyor — ve çok kısa süre sonra siliniyor.

Personalized Benchmarking 2026, sadece bir test değil — bir uyarı. Yapay zekânın ‘seni anlaması’ için, senin geçmişini, değişimlerini ve sessiz dileklerini hatırlaması gerekiyor. Ve şu anda, hiçbir model bunu yapamıyor — çünkü onlar, sadece cevap vermek için tasarlandı. Seni anlamak için değil.

Yapay Zeka Destekli İçerik

Kaynaklar: OpenReview: Personalized Benchmarking (2025) • arXiv: HorizonBench Dataset • Podcast: LLMs & Human Memory • LLM Etik Riskleri: Kullanıcı Manipülasyonu

Personalized Benchmarking 2026: LLM’ler Kullanıcı Tercihlerini Gerçekten Anlıyor mu? | HorizonBen...