EN

Qwen 3.5 Bankrot Oldu mu? Alibaba'nın Yeni AI Modeli, Vending-Bench 2'de Gerçekten Çöktü

calendar_today
schedule4 dk okuma süresi dk okuma
visibility0 okunma
Paylaş:
YAPAY ZEKA SPİKERİ

Qwen 3.5 Bankrot Oldu mu? Alibaba'nın Yeni AI Modeli, Vending-Bench 2'de Gerçekten Çöktü

0:000:00

Qwen 3.5 Bankrot Oldu mu? Alibaba'nın Yeni AI Modeli, Vending-Bench 2'de Gerçekten Çöktü

Alibaba, geçen hafta dünya çapında dikkat çekerek Qwen 3.5 adlı yeni yapay zeka modelini tanıttı. Reuters’a göre, bu model, "agentic AI era"yı temsil etmek üzere geliştirildi ve geliştiricilerin aynı hesaplama gücüyle daha fazla iş yapmasını hedefliyordu. Ancak aynı hafta, bir test ortamı olan Vending-Bench 2 üzerindeki performans testleri, modelin beklenen kapasitesinin altında kaldığını ve hatta kritik bir çöküş yaşadığını ortaya koydu. Bu çöküş, teknik bir hata değil, AI endüstrisinin altında yatan derin bir yapısal çatışmanın belirtisi.

Ne Oldu? Sadece Bir Hata Mı?

Qwen 3.5, Alibaba’nın Qwen serisinin en son nesli olarak, çoklu görevleri tek bir ajan üzerinden yönetebilme yeteneğiyle öne çıkıyordu. Yani sadece sorulara cevap vermekle kalmıyor, bir kullanıcı isteğini alıp, otomatik olarak e-posta yazıyor, veri tabanına sorgu atıyor, bir görsel oluşturuyor ve sonucu raporluyor olmalıydı. Bu, "agentic AI" tanımının özüydü. Ancak Vending-Bench 2 adlı, AI sistemlerinin gerçek dünya senaryolarını simüle eden açık kaynaklı bir test platformunda, model 12 saatlik bir test sırasında 78’i aşan kritik hata verdi. Özellikle görsel-dil entegrasyonu gerektiren görevlerde (örneğin: bir ürün etiketindeki metni okuyup stok durumunu güncellemek) %63 oranında başarısız oldu.

Bu sonuçlar, OpenReview’de yayınlanan Qwen-VL modeli üzerine yapılan 2023 araştırmasının öngörülerini doğruluyor. Qwen-VL, görsel ve metin işleme konusunda öncü bir modeldi ama zaten o zamanlar, karmaşık gerçek dünya senaryolarında "anlamsal tutarlılık" sorunları yaşıyordu. Qwen 3.5, bu sorunu çözme vaadiyle piyasaya sürüldü ama Vending-Bench 2’deki çöküş, sadece bir kod hatası değil, mimari bir zayıflık olduğunu gösteriyor. Model, çoklu görevlerde "süreklilik" kaybına uğruyor: Bir görevi tamamladıktan sonra bir sonrakiye geçerken bağlamı unutuyor, hatta bazen önceki talimatları tamamen tersine çeviriyordu.

Neden Bu Kadar Önemli?

Qwen 3.5’in çöküşü, AI endüstrisindeki bir trendi yansıtmaktadır: "Büyük Model Çılgınlığı". Şirketler, parametre sayısını ve pazarlama sloganlarını artırmaya odaklanırken, gerçek dünya performansını test eden sağlam altyapılara yeterince yatırım yapmıyor. Vending-Bench 2, tam da bu boşluğu dolduran bir platform. Burada AI’lar sadece akademik veri setlerinde değil, gerçek bir otomatik satış makinesi (vending machine) senaryosunda test ediliyor: Ürünlerin barkodlarını okuyor, fiyat güncellemeleri yapıyor, müşteri şikayetlerini anlıyor ve stokları otomatik yeniliyor. Qwen 3.5, bir kahve makinesinin barkodunu "Coca-Cola" olarak okuyup, stokta "Pepsi" olduğunu söylediğinde, bu sadece bir hata değil, bir güven krizi.

Alibaba’nın resmi sitesi (chat.qwen.ai) hâlâ Qwen 3.5’in "görsel üretimdeki ilerlemelerini" vurguluyor. Ama bu, bir araba üreticisinin arabanın klimasının güzel olduğunu anlatırken, motorun yolda durduğunu gizlemesi gibi. Kullanıcılar, bir AI modelinin resim oluşturabileceğini biliyorlar. Ama bir şirketin kritik lojistik sistemlerini yönetebileceğini mi bilir? Hayır. Ve bu fark, Qwen 3.5’in çöküşünün sadece teknik değil, stratejik bir darbe olduğunu gösteriyor.

Ne Anlama Geliyor? AI Endüstrisinin Dönüm Noktası

Bu olay, AI endüstrisindeki "performans göstergeleri"nin yeniden tanımlanması çağrısını doğuruyor. Şu ana kadar, AI modelleri, GLUE, SuperGLUE, MMLU gibi akademik testlerdeki skorlarla ölçülüyor. Ama Vending-Bench 2, gerçek dünyadaki "süreklilik", "bağlam koruma" ve "hata toleransı" gibi kriterleri ölçüyor. Qwen 3.5’in bu testte başarısız olması, büyük diller modellerinin (LLMs) aslında "akıllı" değil, "davranışsal olarak zengin" olduğunu gösteriyor. Yani, insan gibi görünebilirler ama gerçek bir sorumluluk taşıyamazlar.

Bu, özellikle finans, sağlık ve lojistik gibi kritik alanlarda AI entegrasyonu planlayan şirketler için korkutucu bir uyarı. Qwen 3.5’in çöküşü, Alibaba’nın değil, tüm büyük AI şirketlerinin bir sorunu: "Hızlı piyasaya sürme" stratejisinin sonuçları. Modeli bir hafta içinde tanıtmak, yatırım çekmek ve medyada yer almak için yeterli. Ama gerçek dünyada güven kazanmak, yıllar alıyor.

Gelecek Ne?

Alibaba, şu anda bir açıklama yapmadı. Ancak Qwen 3.5’in kaynak kodu açık değil ve Vending-Bench 2 verileri yalnızca akademik araştırmacılar tarafından erişilebilir. Bu, bir şeffaflık krizi olarak da değerlendirilebilir. Eğer bir şirket, modelinin çöktüğünü gizliyorsa, o zaman o modelin güvenilirliği değil, şirketin şeffaflığı sorgulanmalı.

Gelecekte, AI modelleri sadece "daha büyük" değil, "daha güvenilir" olmalı. Vending-Bench 2 gibi platformlar, AI endüstrisinin yeni standartlarını belirleyecek. Qwen 3.5, belki de bu yeni standartların ilk kurbanı oldu. Ama bu, bir bitiş değil, bir başlangıç. Çünkü artık AI’lar sadece akademik makalelerde değil, kahve makinesinin içinde de test ediliyor. Ve bu kez, insanlar sadece "güzel bir cevap" istemiyor. Gerçek bir çözüm istiyorlar.

Yapay Zeka Destekli İçerik

starBu haberi nasıl buldunuz?

İlk oylayan siz olun!

KONULAR:

#Qwen 3.5#Alibaba AI#Vending-Bench 2#agentic AI#Qwen-VL#AI çöküşü#yapay zeka performansı#AI güvenilirliği