AI Agent Güvenilirliği 2026: Pass@1 Yetersizliği ve Reliability Decay Curve Neden Başarı Oranları...

Yapay zeka agent'larının başarı oranları artıyor, ama işlerdeki güvenilirlikleri neredeyse değişmiyor. Princeton Üniversitesi’nden bir ekip, bu çelişkiyi derinlemesine inceleyerek, AI agent'ların performansını ölçmenin temelindeki kırılganlığı ortaya koydu. Bugün birçok şirket, hastane, banka ve hatta yargı sistemlerinde bu agent’ları kullanıyor; ancak bu sistemlerin ne kadar güvenilir olduğu, sadece ‘başarı oranı’ ile değil, daha derin bir güvenilirlik analiziyle anlaşılıyor.

Pass@1’in Gerçek Düşüşü: Neden Tek Başına Yeterli Değil?

2026’da yayınlanan Princeton araştırmasına göre, AI agent’ların standart testlerdeki doğruluk oranları yılda %21 oranında yükseliyor. Ancak bu ölçümler çoğunlukla pass@1 — yani bir kez başarılı olma — ölçütüne dayanıyor. Bu, bir pilota bir kez uçağı kalktırmayı başardığı için ‘iyi pilot’ olduğunu söylemek gibi. Gerçek hayatta, pilotun her uçuşta güvenilir olması gerekir. AI agent’lar da aynı şekilde, uzun süren, çok aşamalı görevlerde — örneğin bir hastanın tedavi planını oluşturmak veya bir finansal risk analizi yapmak — tutarlılıkta ciddi sorunlar yaşıyor.

Pass@1 yetersizliği, agent’ların bir kez doğru cevap vermesiyle ‘başarılı’ sayılmasını sağlar. Ama aynı agent, aynı girdiye 10 kez tekrarlandığında 3 kez hata yapıyorsa, bu bir başarı değil, bir risktir. Bu, özellikle kritik altyapılarda (hastane, finans, yargı) kritik sonuçlar doğuruyor. Örneğin, bir agent bir ilacı 10 kez önerdiğinde 7 kez doğru, 3 kez yanlış doz öneriyorsa, bu bir hata değil, bir sistemik tehlike.

Princeton ekibi, pass@1 yetersizliği nedeniyle geliştiricilerin %83’ü agent’ların gerçek dünyadaki başarısını hatalı şekilde tahmin ettiğini buldu. Yani, benchmark’lar agent’ları kandırıyor. Bu nedenle, pass@1 artık bir ölçüt değil, bir aldanma aracı haline geldi.

Reliability Decay Curve: AI Agent’ların Zamanla Nasıl Çöküşe Uğradığı

Northern Kentucky Üniversitesi’nden başka bir ekip, 396 farklı görevi 23.392 kez test ederek, görev süresi arttıkça agent’ların başarısının nasıl düştüğünü gösterdi. 5 dakikalık bir görevde %90 başarı oranı olan bir agent, 3 saatlik bir görevde %44’e düşüyor. Bu düşüş, Reliability Decay Curve olarak adlandırılıyor.

Reliability Decay Curve, agent’ların uzun süreli görevlerdeki güvenilirlik kaybını görselleştirir. Bu eğrinin nedeni, agent’ların ‘araç çağrısı’ (tool-call) zincirlerindeki küçük hataların birikmesidir. Bir agent, bir veriyi doğru okuyor, sonra bir API’yi yanlış çağırıyor, sonra bir sonraki adımda bir hata düzeltmeye çalışıyor ama bu düzeltme başka bir hataya yol açıyor. Bu döngü, zamanla entropy (kaos) seviyesini yükseltiyor ve agent, ‘meltdown’ — yani tamamen çöküş — noktasına ulaşıyor.

Bu nokta, araştırmacılar tarafından Meltdown Onset Point (MOP) olarak tanımlanıyor. Şu anda hiçbir standart benchmark MOP’i ölçmüyor. Reliability Decay Curve ise, bu çöküşü zamanla izleyebilmemizi sağlıyor. Örneğin, bir finansal risk analizi agent’ı 1 saatte %87, 2 saatte %62, 3 saatte %44 başarı gösteriyorsa, bu eğri sadece bir grafik değil, bir uyarıdır.

3 Temel Çöküş Nedeni

Tutarlılık (Consistency): Aynı girdiye farklı çıktılar verme. Örnek: Aynı hasta verisiyle farklı ilaç önerisi.
Dayanıklılık (Robustness): Küçük veri gürültüsüne (yazım hatası, eksik değer) tepki verme. Örnek: Bir virgül değişikliği tüm analizi bozuyor.
Öngörülebilirlik (Predictability): Hataların ne zaman ve nasıl ortaya çıkacağını tahmin edebilme.

5 Yeni Güvenilirlik Metriği (Princeton)

Consistency Score (CS)
Robustness Deviation Index (RDI)
Predictability Confidence Interval (PCI)
Safety Risk Rating (SRR)
Reliability Decay Slope (RDS)

Bu metrikler, agent’ların sadece bir kez doğru cevap verip vermediğini değil, sürekli ne kadar güvenilir olduğunu ölçüyor. Önemli bir bulgu: Güvenilirlik, modelin boyutuyla ilişkili değil. Bazı küçük modeller, büyüklerden daha iyi reliability decay curve eğrisi çiziyor.

Gerçek Dünyada Ne Demek?

Bir agent, %99 doğrulukla bir rapor yazsa da, her 100. raporda bir kritik hata yapıyorsa, o agent bir işe yaramaz. Çünkü gerçek dünyada, bir hata yeterli — bir kaza, bir mali kayıp, bir hasta kaybı. Sigorta şirketleri, bankalar, sağlık kurumları artık AI agent’ları satın alırken, pass@1 değil, reliability decay curve ve consistency score’ları talep etmeye başlıyor.

Gelecekte, AI agent’ların satın alınması, sadece ‘doğruluk oranı’ değil, ‘güvenilirlik profili’ ile değerlendirilecek. Geliştiriciler ise, test süreçlerine ‘tutarlılık testleri’, ‘hata senaryoları’ ve ‘uzun süreli çöküş simülasyonları’ eklemeli.

AI agent’ların başarısı, sadece bir kez doğru cevap vermesiyle değil, her seferinde doğru cevap vermesiyle ölçülür. Bugün, bu farkı anlamayanlar, yarın kritik hatalarla yüzleşecek. Güvenilirlik, sadece bir teknik özellik değil, bir etik zorunluluk.

Yapay Zeka Destekli İçerik

Kaynaklar: Princeton AI Agent Reliability Study 2026 • Northern Kentucky Decay Curve Analysis • AI Test Metrikleri • Pass@1 Yetersizliği • Reliability Decay Curve

İlgili içerikler: Yapay Zeka Güvenilirliği • AI Test Metrikleri

AI Agent Güvenilirliği 2026: Pass@1 Yetersizliği ve Reliability Decay Curve Neden Başarı Oranları...