AI Agent'lar Ethereum'u Kurtarabilir mi? EVMbench Sınavında GPT-5, Claude ve Gemini'nin Şok Sonuçları

AI Agent'lar Ethereum'u Kurtarabilir mi? EVMbench Sınavında GPT-5, Claude ve Gemini'nin Şok Sonuçları
Ethereum’un güvenliği, artık yalnızca kod yazan geliştiricilerle değil, yapay zeka ajantlarıyla da ölçülmeye başlandı. OpenAI ve Paradigm’in ortaklaşa geliştirdiği EVMbench, dünya çapında ilk kez AI ajantlarının akıllı sözleşme exploit’lerini tanıma, analiz etme ve düzeltme yeteneklerini nötr, tarafsız bir ortamda test etti. Bu proje, sadece bir teknik araç değil; blockchain dünyasının güvenlik paradigmasının kökten değiştiğini gösteren bir sinyal.
EVMbench Nedir? Neden Bu Kadar Önemli?
EVMbench, Ethereum Sanal Makinesi (EVM) üzerinde çalışan akıllı sözleşmelerin güvenlik zafiyetlerini içeren 1.200’den fazla gerçekçi senaryodan oluşan bir veri seti. Bu senaryolar, Re-entrancy, Integer Overflow, Access Control Hataları gibi klasik ve yeni nesil exploit’leri içeriyor. Ancak buradaki yenilik, bu testlerin insan geliştiriciler değil, AI ajantlarının performansını ölçmek için tasarlanmış olması. Her ajant, sadece bir akıllı sözleşmenin kaynak kodunu ve bir ‘hedef: güvenlik açıklarını bul’ talimatı alıyor. Hiçbir ekstra bilgi, hiçbir rehber, hiçbir eğitim verilmiyor. Tamamen sıfırdan analiz ediyorlar.
GPT-5, Claude 3.5 ve Gemini 2.0: Sıralama Şok Edici
Blockonomi’nin raporuna göre, testlerde en yüksek başarı oranına sahip olan AI ajantı GPT-5 oldu. %89.3 oranında zafiyetleri doğru şekilde tanımlayıp, %76.1’inde düzeltme önerisi sunabildi. Bu rakam, insan güvenlik uzmanlarının ortalama %82 başarısını bile aşıyor. GPT-5’in en büyük avantajı, akıllı sözleşmelerin mantıksal akışını anlamak ve sadece kodu değil, onun bağlamını da yorumlayabilme yeteneği. Örneğin, bir Re-entrancy açığından kaynaklanan fon kaybını, sadece ‘call’ komutunu görerek değil, fonksiyonun çağrılma sırasını ve durum değişikliklerini izleyerek tespit edebiliyor.
Anthropic’ın Claude 3.5 ise %74.2 doğruluk oranı ile ikinci sırada yer aldı. Ancak burada dikkat çeken bir detay var: Claude, zafiyetleri tanımlamada oldukça güçlüyken, düzeltme önerilerinde sıklıkla ‘kodun işlevselliğini bozan’ çözümler sunuyordu. Yani, açıkları bulabiliyordu ama onu tamir ederken sözleşmenin asıl amacını bozuyordu. Bu, AI ajantlarının ‘güvenlik’ ile ‘işlevsellik’ dengesini kurmakta hala zorlandığının kanıtı.
Google’un Gemini 2.0 ise %61.4 başarı oranı ile üçüncü sırada kaldı. En büyük zayıflığı, kontekstel anlama eksikliğiydi. Örneğin, bir sözleşmede ‘owner’ değişkeninin özel bir rolü olduğunu anlamakta zorlanıyordu ve bu tür erişim kontrollerini ‘sadece bir değişken’ olarak görüp göz ardı ediyordu. Bu, Gemini’nin genel dil modellerindeki ‘yaklaşık anlama’ yaklaşımının blockchain gibi kesinlik gerektiren alanlarda sınırlarını gösteriyor.
Neden Bu Testler Tarihi Bir Dönüm Noktası?
OpenAI ve Paradigm’in bu projesi, sadece bir ‘AI yarışması’ değil. Blockchain güvenliğinin geleceğini şekillendiren bir felsefi değişiklik. Geçmişte güvenlik, ‘insan uzmanların’ kodu elle tarayarak, saatlerce süren kod incelemeleriyle yapıyordu. Şimdi ise, bir AI ajantı, birkaç dakikada binlerce sözleşme üzerinde analiz yapabiliyor. Bu, güvenlik ekiplerinin zamanını kod okumaktan kurtarıyor ve daha stratejik, yaratıcı güvenlik mimarisi üzerine odaklanmalarını sağlıyor.
Ayrıca, EVMbench’in açık kaynak (open-source) olması büyük bir avantaj. Herhangi bir geliştirici, bu test setini kendi AI modelini eğitmek için kullanabilir. Bu, güvenlik testlerinin ‘sırada tutulan’ bir sanat halinden, topluluk tarafından ortaklaşa geliştirilen bir alana geçiş anlamına geliyor. Zhihu’da yapılan tartışmalarda, Çinli geliştiriciler bu modelin özellikle ‘kamu blok zinciri’ projelerinde kullanılabileceğini öne sürüyor. Çünkü bu tür projelerde bütçe sınırlı olup, uzman insan ekipleri bulunmayabilir.
Gelecek: AI Ajantları Güvenlik Süreçlerinin Merkezine Gelecek
EVMbench’in en büyük mesajı şudur: AI ajantları, güvenlikte ‘yardımcı’ değil, artık ‘ana karar verici’ olmaya başlıyor. Bir akıllı sözleşme, bir AI ajantı tarafından yayınlanmadan önce ‘güvenlik onayı’ alacak. Kodunuzu doğrulamak için bir insan değil, bir AI modeliyle görüşeceksiniz. Bu, geliştiricilerin kod yazma tarzını da değiştirecek. Artık sadece ‘çalışan kod’ değil, ‘AI tarafından anlaşılabilecek kod’ yazmak gerekecek.
Yine de, bu teknolojiye aşırı güvenmek tehlikeli. EVMbench’teki başarı oranları, test setindeki senaryolara göre ölçüldü. Gerçek dünyada, yeni exploit’ler her gün ortaya çıkıyor. AI ajantları, özellikle ‘sıfır gün’ zafiyetlerini henüz tanıyamıyor. Bu nedenle, gelecekteki güvenlik sistemi, insan uzman + AI ajant + otomatik testlerin birleşiminden oluşacak. AI, hız ve ölçek sağlayacak; insan, yaratıcılık ve etik kararlar verecek.
OpenAI ve Paradigm’in EVMbench’i, sadece bir test değil, bir çağın başlangıcı. Ethereum’un güvenliği artık sadece ‘kod’ değil, ‘akıl’ ile korunacak. Ve bu akıl, artık insan beyninden değil, yapay bir sinir ağından geliyor.


