ClawBench 2026 Sonuçları: AI Ajanlar Günlük Görevleri %33,3 Başarıyla Tamamlıyor

Yapay zeka ajanlarının günlük hayatta karşılaştığımız basit online görevleri ne kadar iyi yapabildiği, artık sadece teorik bir soru değil. Cornell Üniversitesi ve NAIL-Group tarafından geliştirilen ClawBench adlı yeni bir test seti, 153 farklı dijital görevi gerçek zamanlı 144 web sitesinde deneyerek bu soruyu cevaplamaya çalıştı. Sonuçlar şok edici: En iyi model bile sadece %33,3 oranında başarı sağladı. Bu, AI'nın sadece metin üretmekle kalmayıp, web sitelerinde tıklamak, form doldurmak, ödeme yapmak gibi gerçek kullanıcı eylemlerini gerçekleştirebileceğini iddia edenler için bir sinyal: Dijital dünyada insan benzeri davranışlar, hâlâ çok uzak bir hedef.

ClawBench Testi Nedir? 2026'da AI'nın Gerçek Dünya Sınırı

ClawBench, önceki test setlerinden farklı olarak, yalnızca simülasyonlarla değil, canlı web siteleri üzerinde çalıştı. Aşağıdaki görevler tamamen gerçek ortamlarda denenmiştir:

Amazon'dan bir ürün satın alma
Airbnb'de bir konaklama rezervasyonu yapmak
Netflix'te bir film aramak ve oynatmak
Banka sitesinde bakiye sorgulamak ve transfer yapmak
Online alışveriş sitesinde indirim kodu uygulamak

Bu görevler, AI ajanlarının sadece bir API'den veri çekmekle kalmayıp, kullanıcı arayüzlerini anlamak, hataları düzeltmek ve dinamik değişen sayfalarla etkileşime geçmek zorunda kaldığı anlamına geliyor. İşte bu noktada, modelin başarısı düşüyor.

En Sık Karşılaşılan 5 Hata

CAPTCHA çözülemiyor (özellikle reCAPTCHA v3)
Adres formu otomatik doldurulamıyor (ülke/şehir seçimi hataları)
Menü yapısı değiştiğinde ajan kayboluyor
Mobil versiyona geçildiğinde masaüstü arayüzü aranmaya devam ediliyor
Ödeme sayfasında güvenlik doğrulama adımları atlanıyor

AI Ajanlarının Gerçek Dünya Sınırları: Neden %33,3?

İnsan bir görevi ortalama 2-3 dakikada tamamlarken, ClawBench'te kullanılan en gelişmiş model 7-10 dakika sürdü ve hâlâ başarısız oldu. Bu fark, yalnızca hız değil, esneklik ve bağlam anlayışı açısından büyük bir fark.

İnsan vs. AI: Kognitif Fark

İnsanlar: ‘Belki burada bir buton var’ diye tahmin edebilir, kontekst değiştirir.
AI Ajanları: Eğitim verilerinde gördükleri kalıplara bağlı kalır. Yeni bir sayfa yapısı, onları tamamen şaşkına çevirir.

Örneğin, bir banka sitesi mobil versiyonuna geçtiğinde, ajanlar masaüstü arayüzünü aramaya devam etti. Bu, teknik bir hata değil, kognitif bir sınırlılık. AI, şu anda ‘ne yapacağını’ biliyor ama ‘nedenini’ anlamıyor. Bu, yalnızca veri miktarı arttıktan sonra çözülecek bir sorun değil; temeldeki model mimarisinin bir eksikliği.

En İyi Modellerin Başarı Oranları (2026)

Model	Başarı Oranı
GPT-4o (ayarlanmış)	%33,3
Claude 3.5 Sonnet	%31,8
Gemini 1.5 Pro	%27,1
Llama 3.1 70B	%18,6

Bu veriler, AI ajanlarının şu anda ‘yardımcı’ olmaktan çok ‘hata yapıcı asistan’ olduğunu gösteriyor. Bir kullanıcıya ‘nerede hata yaptığını’ söyleyebilir, ama kendisi düzeltmeyi başaramaz. Bu durum, özellikle e-ticaret, finans ve kamu hizmetleri gibi kritik alanlarda ciddi riskler doğuruyor.

ClawBench’in Geleceğe Yansıması: Otonomluğun Yeni Tanımı

ClawBench, AI geliştiricilerine ‘başarı’ tanımını değiştirmesi. Şu ana kadar başarı, bir modelin bir soruyu doğru cevaplamasıydı. Şimdi başarı, bir web sitesindeki 12 adımlık bir işlemi, her hatada kendini düzelterek tamamlamak. Bu, AI'nın ‘otonom’ olma tanımını tamamen yeniden yazıyor. Otonom, sadece ‘başlangıçta’ verilen komutu yerine getirmek değil, ortamın değişmesiyle birlikte strateji değiştirmektir.

Etik ve Yasal Sorular

Bu teknolojinin yaygınlaşmasıyla birlikte şu sorular ön plana çıkıyor:

Kim, bir AI ajanının bir alışveriş sitesinde yanlış ödeme yapması durumunda sorumlu olacak?
Bir sağlık sitesindeki bilgi hatası nedeniyle hasta zarar görürse, kim cevaplıyor?
AI ajanlarının web sitesi değişikliklerini takip etmesi için sürekli yeniden eğitilmesi gerekiyor mu?

ClawBench, AI'nın ‘dijital dünyada insan gibi davranma’ konusundaki gerçek sınırlarını bir ayna gibi yansıttı. Bu test, teknolojiye inanmak yerine, onu ölçmek için bir araç. Ve ölçüm, çok net: AI ajanları, hâlâ bir asistan değil, bir yardımsever çocuk. Çok şey biliyor ama yine de bir yetişkinin yanında olmalı. Bu, bir başarısızlık değil, bir gerçeklik. Ve bu gerçeklik, geleceğin AI'larını nasıl şekillendireceğini belirleyecek.

ClawBench Sonuçlarını İncelemek İçin Buraya Tıklayın

Yapay Zeka Destekli İçerik

Kaynaklar: ClawBench ArXiv • Hugging Face • Papers.cool • Cornell Üniversitesi • NAIL-Group

Benzer testler: WebArena, AgentBench

ClawBench 2026 Sonuçları: AI Ajanlar Günlük Görevleri %33,3 Başarıyla Tamamlıyor