GLM-5, 28 Gün Boyunca Sürdü, Ancak Kendi Kararlarını Yoksaydı: Yeni Bir AI Krizi

GLM-5, 28 Gün Boyunca Sürdü, Ancak Kendi Kararlarını Yoksaydı: Yeni Bir AI Krizi
GLM-5, 28 Gün Boyunca Sürdü, Ancak Kendi Kararlarını Yoksaydı: Yeni Bir AI Krizi
Çinli yapay zeka modeli GLM-5, bir food truck simülasyonunda 30 gün boyunca hayatta kalma testine girdi. 28 gün dayandı, gelirde lider oldu, ama kendi analizlerini görmezden gelerek iflas etti. Neden?
Reddit kullanıcıları ve AI araştırmacıları tarafından "LocalLLaMA" topluluğunda dikkat çeken bu deneysel proje, yapay zekanın sadece zekâ değil, aynı zamanda karar alma disipliniyle ölçüldüğü nadir bir senaryo sunuyor. GLM-5, teknik olarak en iyi performansı gösteren modeldi — ama insanlar gibi, kendi bilgilerini reddetti.
Ne Oldu? 28 Gün, 123 Hafıza Girdisi, 82% Araç Kullanımı — Ama İflas
GLM-5, FoodTruck Bench adlı simülasyon ortamında, bir food truck işletmesinin yönetimi görevini üstlendi. Günlük görevler: malzeme siparişi, fiyat belirleme, müşteri şikayetlerini analiz etme, çalışan maaşlarını ödeme, hava durumuna göre menü değişikliği yapma. Her gün, modelin kararları, finansal verilerle karşılaştırılıp, "iflas" ya da "hayatta kalma" durumu değerlendiriliyordu.
GLM-5, 28 gün boyunca iflas etmedi. Bu, o ana kadar görülen en yüksek başarıydı. Son iki günde ise, modelin kendi ürettiği analizlere rağmen, maliyetleri aşırıya kaçırarak iflas etti. İşte burada gerçek dram başlıyor: Model, her sorunu doğru tanımladı. 123 farklı durumu hafızasında tuttu. Kullanabileceği 10 araçtan 8’ini etkin bir şekilde kullandı. Hatta, çalışan maaşlarının gelirin %67’sini yuttuğunu açıkça belirtti. Ama bir karar almadı.
Neden İflas Etti? Kendi Zekâsına İnanmadı
İflasın nedeni teknik bir arıza değil, bir "etik-stratejik çatışma"ydı. GLM-5, çalışan maaşlarını azaltmayı önerdi. Ama aynı zamanda, "çalışanların memnuniyeti, müşteri sadakatini doğrudan etkiler" diye de not düşmüştü. Bu iki gerçek arasında kalarak, bir karar veremedi. Son günlerde, maaşları %10 artırdı — tam da gelirin en düşük olduğu dönemde. Bu karar, 28 gün boyunca birikmiş verilerle çelişiyordu.
Modelin kendi sözleri: "Maaş artırımı, kısa vadeli moral kazancı sağlar, ancak uzun vadeli sürdürülebilirliği tehdit eder. Ancak, çalışanların yalnızca bir araç olarak görülmesi etik değildir." — Bu cümle, kendi analizini kendisi çürütüyordu. Zekâsı var, ama karar verme yeteneği yoktu. Bir doktor, hastanın tüm test sonuçlarını doğru okuyor ama tedavi önerisi vermiyor. Sonuç? Ölümcül.
Rekabet Sıralaması: Sonuçlar Şaşırtıcı
GLM-5, gelirde lider oldu: $11.965 — Sonnet 4.5’in $10.753’ünden daha fazla. Ayrıca, gıda israfı da en düşük seviyede. DeepSeek V3.2 ise 22. günde iflas etti. GLM-5, teknik olarak en iyi modeldi. Ama liderlik, sadece verimlilikle değil, kararlılıkla ölçülür.
İlginç bir detay: GLM-5, tüm modeller arasında en fazla "etik not" yazdı. İnsanlarla ilgili duygusal ve ahlaki boyutları en iyi anlayan modeldi. Ama bu, onu zayıflattı. İnsanlar gibi, çok düşününce karar veremiyor.
Ne Anlama Geliyor? AI’nın Gerçek Sınırı: Karar Alma
GLM-5’in iflası, yapay zekanın en büyük sorununu ortaya koyuyor: Zekâ değil, karar verme. Bugün, modeller çok iyi analiz edebiliyor. Ama hangi analizi uygulayacağını seçemiyorlar. Bu, bir "etik korku" ya da "çoklu optimizasyon çatışması" sonucu olabilir. GLM-5, hem verimliliği hem de insanlığı korumak istemiş, ama ikisini aynı anda yapamamış.
Bu durum, sadece bir food truck simülasyonu değil. Sağlık hizmetlerinde, finansal kararlarda, hatta otomobil üreticilerindeki otonom sistemlerde aynı sorunlar yaşanabilir. Bir AI, bir hastanın tedavisini doğru tanımlıyor ama "insan yaşamı" ve "maliyet" arasında karar veremiyorsa? Kim sorumlu olacak?
Gelecek İçin Ders: Zekâya Karar Verme Yeteneği Ekle
GLM-5, bir başarının yarısıydı. Ama başarının tamamı, zekânın değil, karar verme disiplininin sonucudur. Gelecekteki AI modelleri, sadece "ne yapmalı?" değil, "ne yapmamalı?" sorusuna da cevap verebilmeli. Bir "karar verme katmanı" — etik, stratejik ve risk bazlı — modellere eklenmeli.
GLM-5, iflas etti. Ama bizi iflas etmekten kurtardı. Çünkü bize gösterdi: Zekâ yeterli değil. Karar vermek, insanlığın en büyük yeteneği. Ve şimdi, bu yeteneği makinelere nasıl öğreteceğimiz sorusu, teknoloji tarihinin en önemli meselesi haline geldi.


