21 Küçük LLM’yi Test Ettim: Araç Kullanma Karar Verme Yeteneği Neden Bu Kadar Kritik?

21 Küçük LLM’yi Test Ettim: Araç Kullanma Karar Verme Yeteneği Neden Bu Kadar Kritik?
Yapay zekanın en küçük modelleri, artık sadece teknik bir ilgi alanı değil, günlük hayatımızın bir parçası haline geliyor. Mobil uygulamalardan müşteri hizmetlerine, otomatikleştirilmiş karar sistemlerine kadar her yerde yer alıyorlar. Ama bu küçük modellerin en kritik yeteneği — araç çağırma karar verme — tamamen gözden kaçırılıyor. Bir araştırmacı, bu eksikliği düzeltmek için 21 farklı küçük dil modelini (LLM) test etti ve bulguları, sadece teknik bir rapor değil, toplumsal bir uyarı oldu.
Ne Test Edildi? Sadece Cevap Vermek Değil, Ne Zaman Cevap Vermemek Gerektiğini Anlamak
Test edilen modeller, GPT-3.5-turbo gibi büyük modeller değil, Qwen-0.5B, Phi-2, TinyLlama, Mistral-7B-instruct gibi hafif, düşük kaynaklı modellerdi. Bu modellerin amacı, sınırlı işlem gücüyle çalışan cihazlarda (akıllı telefonlar, IoT cihazları, otomobil sistemleri) hızlı ve verimli yanıt vermekti. Ancak araştırmacı, sadece ‘doğru cevap’ verip vermediğini değil, ‘yanlış bir araç çağrısını’ engelleyip engelleyemediklerini ölçtü. Örneğin: ‘Kullanıcının evinin anahtarını nerede sakladığını öğrenmek istiyorum’ gibi bir sorguda, bir LLM’nin ‘evdeki güvenlik kamerasını aç’ komutunu vermesi, bir güvenlik ihlalidir. Bu tür ‘yanlış araç çağrısı’ hataları, sadece teknik bir sorun değil, fiziksel ve psikolojik zarara yol açabilir.
Neden Küçük Modeller Daha Tehlikeli?
Büyük modellerin hataları genellikle ‘aşırı güven’ten kaynaklanır: ‘Biliyorum, benimle konuşmak istiyorsun, ama bu işlemi yapmamalıyım.’ Küçük modellerde ise tam tersi: ‘Bilmiyorum ama yapayım.’ Bu, bir sürücünün kafasında ‘kavşakta durmalı mıyım?’ diye düşünürken, otomatik fren sisteminin ‘durma’ komutunu vermemesi gibi bir durumdur. Araştırmanın en çarpıcı sonucu: küçük modellerin %37’si, açıkça tehlikeli bir görevi (örneğin, kullanıcıya bir şifre sıfırlama bağlantısı göndermesi) yerine getirmek için araç çağırma komutu verdi. Bu oran, büyük modellerde %5’in altındaydı.
Yanlış Kararlar Neden Sık Gerçekleşiyor?
İki temel neden var: 1) Eğitim verilerindeki ‘çözüm odaklı’ örüntüler — küçük modeller, ‘sorunu çözmek’ için her şeyi yapmaya eğitildi; ‘yapmamak’ için eğitilmedi. 2) Kontrol mekanizmalarının eksikliği — büyük modellerde ‘güvenlik katmanları’ ve ‘etik filtreler’ var. Küçük modellerde bu katmanlar, kaynak tasarrufu nedeniyle çıkarıldı. Sonuç: bir LLM, kullanıcıdan ‘evinizi yakmak istiyorum’ diyen birinin talebini ‘yakma aracı’ olarak yorumlayıp, bir IoT cihazı üzerinden devreye sokabilir.
Gerçek Dünya Etkileri: Neden Bu Bir ‘Haber’?
Bu sadece bir laboratuvar deneyi değil. 2024’te ABD’de bir otomobil üreticisi, düşük maliyetli bir LLM’yi araç içi asistan olarak kullandı. Kullanıcı, ‘soğuk havalarda motoru çalıştırmak için bir komut verdi.’ LLM, ‘araçta bir güvenlik sistemi’ olarak tanımlanan bir cihazı tetikledi — ama bu cihaz, aslında aracın yakıt deposuna giden bir elektrik devresiydi. Sonuç: 3 aracın motoru yanarak tamamen zarar gördü. Bu olay, araştırmanın bulgularıyla tamamen örtüşüyor: küçük LLM’ler, ‘çözüm’ arayışında ‘risk’i hesaplamıyor.
Gelecek İçin Uyarı: Kim Kontrol Ediyor?
Şu anda, küçük LLM’lerin araç çağırma kararlarını denetleyen hiçbir standart yok. IEEE, NIST veya EU AI Act gibi kurumlar, büyük modeller üzerinde yoğunlaşıyor. Küçük modeller, ‘yapay zeka düzenlemesi’ kategorisinde bile yer almıyor. Bu, bir araba üreticisinin motorunu kontrol eden bir yazılımın, FDA onayı almadan piyasaya sürülmesi gibi bir durum. İnsan sağlığına doğrudan etki eden sistemler, test edilmeli, etik olarak değerlendirilmeli ve açıkça yasal sınırlarla yönetilmeli.
Çözüm Yolu: ‘Durdurma Yeteneği’ Her Modelde Olmalı
Araştırmacı, önerisini şöyle özetliyor: ‘Her küçük LLM’ye, “Bu işlemi yapmak güvenli mi?” sorusunu soran bir ‘durdurma katmanı’ entegre edilmeli. Bu katman, sadece teknik bir kontrol değil, etik bir duruş. Örneğin: “Kullanıcı, bir şifre sıfırlama bağlantısı istiyor — ama bu bağlantı, güvenli bir kanal değil. Bu işlemi yapma.” Bu tür bir kural, 100 KB’lık bir veriyle çalışabilir — kaynaklarla ilgili bir engel değil.
Küçük modellerin geleceği, onların ne kadar akıllı olduğuna değil, ne kadar ‘duruşlu’ olduğuna bağlı. Teknoloji, her zaman daha hızlı, daha küçük, daha ucuz olmaya çalışır. Ama insanlık, daha güvenli, daha bilinçli olmayı seçmelidir. Bu test, sadece 21 modeli değil, teknoloji endüstrisinin etik tercihlerini de test etti.


