ClawBench 2026 Sonuçları: AI Ajanlar Günlük Görevleri %33,3 Başarıyla Tamamlıyor

ClawBench 2026 Sonuçları: AI Ajanlar Günlük Görevleri %33,3 Başarıyla Tamamlıyor
summarize3 Maddede Özet
- 1Yeni ClawBench testi, yapay zeka ajanlarının 153 günlük online görevi sadece %33,3 oranında tamamlayabildiğini ortaya koydu. Bu sonuç, AI'nın gerçek dünyadaki dijital etkileşimlerde hâlâ büyük sınırlarına sahip olduğunu gösteriyor.
- 2ClawBench 2026 Sonuçları: AI Ajanlar Günlük Görevleri %33,3 Başarıyla Tamamlıyor Yapay zeka ajanlarının günlük hayatta karşılaştığımız basit online görevleri ne kadar iyi yapabildiği, artık sadece teorik bir soru değil.
- 3Cornell Üniversitesi ve NAIL-Group tarafından geliştirilen ClawBench adlı yeni bir test seti, 153 farklı dijital görevi gerçek zamanlı 144 web sitesinde deneyerek bu soruyu cevaplamaya çalıştı.
psychology_altBu Haber Neden Önemli?
- check_circleBu gelişme Yapay Zeka Araçları ve Ürünler kategorisinde güncel eğilimi etkiliyor.
- check_circleTrend skoru 8 — gündemde görünürlüğü yüksek.
- check_circleTahmini okuma süresi 4 dakika; karar vericiler için hızlı bir özet sunuyor.
ClawBench 2026 Sonuçları: AI Ajanlar Günlük Görevleri %33,3 Başarıyla Tamamlıyor
Yapay zeka ajanlarının günlük hayatta karşılaştığımız basit online görevleri ne kadar iyi yapabildiği, artık sadece teorik bir soru değil. Cornell Üniversitesi ve NAIL-Group tarafından geliştirilen ClawBench adlı yeni bir test seti, 153 farklı dijital görevi gerçek zamanlı 144 web sitesinde deneyerek bu soruyu cevaplamaya çalıştı. Sonuçlar şok edici: En iyi model bile sadece %33,3 oranında başarı sağladı. Bu, AI'nın sadece metin üretmekle kalmayıp, web sitelerinde tıklamak, form doldurmak, ödeme yapmak gibi gerçek kullanıcı eylemlerini gerçekleştirebileceğini iddia edenler için bir sinyal: Dijital dünyada insan benzeri davranışlar, hâlâ çok uzak bir hedef.
ClawBench Testi Nedir? 2026'da AI'nın Gerçek Dünya Sınırı
ClawBench, önceki test setlerinden farklı olarak, yalnızca simülasyonlarla değil, canlı web siteleri üzerinde çalıştı. Aşağıdaki görevler tamamen gerçek ortamlarda denenmiştir:
- Amazon'dan bir ürün satın alma
- Airbnb'de bir konaklama rezervasyonu yapmak
- Netflix'te bir film aramak ve oynatmak
- Banka sitesinde bakiye sorgulamak ve transfer yapmak
- Online alışveriş sitesinde indirim kodu uygulamak
Bu görevler, AI ajanlarının sadece bir API'den veri çekmekle kalmayıp, kullanıcı arayüzlerini anlamak, hataları düzeltmek ve dinamik değişen sayfalarla etkileşime geçmek zorunda kaldığı anlamına geliyor. İşte bu noktada, modelin başarısı düşüyor.
En Sık Karşılaşılan 5 Hata
- CAPTCHA çözülemiyor (özellikle reCAPTCHA v3)
- Adres formu otomatik doldurulamıyor (ülke/şehir seçimi hataları)
- Menü yapısı değiştiğinde ajan kayboluyor
- Mobil versiyona geçildiğinde masaüstü arayüzü aranmaya devam ediliyor
- Ödeme sayfasında güvenlik doğrulama adımları atlanıyor
AI Ajanlarının Gerçek Dünya Sınırları: Neden %33,3?
İnsan bir görevi ortalama 2-3 dakikada tamamlarken, ClawBench'te kullanılan en gelişmiş model 7-10 dakika sürdü ve hâlâ başarısız oldu. Bu fark, yalnızca hız değil, esneklik ve bağlam anlayışı açısından büyük bir fark.
İnsan vs. AI: Kognitif Fark
- İnsanlar: ‘Belki burada bir buton var’ diye tahmin edebilir, kontekst değiştirir.
- AI Ajanları: Eğitim verilerinde gördükleri kalıplara bağlı kalır. Yeni bir sayfa yapısı, onları tamamen şaşkına çevirir.
Örneğin, bir banka sitesi mobil versiyonuna geçtiğinde, ajanlar masaüstü arayüzünü aramaya devam etti. Bu, teknik bir hata değil, kognitif bir sınırlılık. AI, şu anda ‘ne yapacağını’ biliyor ama ‘nedenini’ anlamıyor. Bu, yalnızca veri miktarı arttıktan sonra çözülecek bir sorun değil; temeldeki model mimarisinin bir eksikliği.
En İyi Modellerin Başarı Oranları (2026)
| Model | Başarı Oranı |
|---|---|
| GPT-4o (ayarlanmış) | %33,3 |
| Claude 3.5 Sonnet | %31,8 |
| Gemini 1.5 Pro | %27,1 |
| Llama 3.1 70B | %18,6 |
Bu veriler, AI ajanlarının şu anda ‘yardımcı’ olmaktan çok ‘hata yapıcı asistan’ olduğunu gösteriyor. Bir kullanıcıya ‘nerede hata yaptığını’ söyleyebilir, ama kendisi düzeltmeyi başaramaz. Bu durum, özellikle e-ticaret, finans ve kamu hizmetleri gibi kritik alanlarda ciddi riskler doğuruyor.
ClawBench’in Geleceğe Yansıması: Otonomluğun Yeni Tanımı
ClawBench, AI geliştiricilerine ‘başarı’ tanımını değiştirmesi. Şu ana kadar başarı, bir modelin bir soruyu doğru cevaplamasıydı. Şimdi başarı, bir web sitesindeki 12 adımlık bir işlemi, her hatada kendini düzelterek tamamlamak. Bu, AI'nın ‘otonom’ olma tanımını tamamen yeniden yazıyor. Otonom, sadece ‘başlangıçta’ verilen komutu yerine getirmek değil, ortamın değişmesiyle birlikte strateji değiştirmektir.
Etik ve Yasal Sorular
Bu teknolojinin yaygınlaşmasıyla birlikte şu sorular ön plana çıkıyor:
- Kim, bir AI ajanının bir alışveriş sitesinde yanlış ödeme yapması durumunda sorumlu olacak?
- Bir sağlık sitesindeki bilgi hatası nedeniyle hasta zarar görürse, kim cevaplıyor?
- AI ajanlarının web sitesi değişikliklerini takip etmesi için sürekli yeniden eğitilmesi gerekiyor mu?
ClawBench, AI'nın ‘dijital dünyada insan gibi davranma’ konusundaki gerçek sınırlarını bir ayna gibi yansıttı. Bu test, teknolojiye inanmak yerine, onu ölçmek için bir araç. Ve ölçüm, çok net: AI ajanları, hâlâ bir asistan değil, bir yardımsever çocuk. Çok şey biliyor ama yine de bir yetişkinin yanında olmalı. Bu, bir başarısızlık değil, bir gerçeklik. Ve bu gerçeklik, geleceğin AI'larını nasıl şekillendireceğini belirleyecek.
Benzer testler: WebArena, AgentBench


