LLM Zehirleme: Nim Oyunu ile Büyük Dil Modellerinin Zayıflığı Kanıtlandı (2026)

LLM Zehirleme: Nim Oyunu ile Büyük Dil Modellerinin Zayıflığı Kanıtlandı (2026)
summarize3 Maddede Özet
- 1Yeni bir dizi deney, büyük dil modellerinin (LLM'ler) neredeyse herhangi bir basit mantık oyunuyla kolayca zehirlenebileceğini ortaya koydu. Bu keşif, yapay zekânın güvenliği konusunda derin bir sarsıntı yarattı.
- 2Araştırmacılar, 1901'de Charles Leonard Bouton’un geliştirdiği Nim oyununun temel kurallarını kullanarak modern LLM’leri kandırmayı başardı.
- 3Bu keşif, yapay zekâ güvenliği konusunda derin bir sarsıntı yarattı ve yapay zekâ hataları nın temel nedenlerini gözler önüne serdi.
psychology_altBu Haber Neden Önemli?
- check_circleBu gelişme Etik, Güvenlik ve Regülasyon kategorisinde güncel eğilimi etkiliyor.
- check_circleTrend skoru 5 — gündemde görünürlüğü yüksek.
- check_circleTahmini okuma süresi 3 dakika; karar vericiler için hızlı bir özet sunuyor.
LLM Zehirleme: Nim Oyunu ile Büyük Dil Modellerinin Zayıflığı Kanıtlandı (2026)
2026'da gerçekleştirilen yeni bir dizi deney, büyük dil modellerinin (LLM'ler) neredeyse herhangi bir basit mantık oyunuyla kolayca zehirlenebileceğini ortaya koydu. Araştırmacılar, 1901'de Charles Leonard Bouton’un geliştirdiği Nim oyununun temel kurallarını kullanarak modern LLM’leri kandırmayı başardı. Bu keşif, yapay zekâ güvenliği konusunda derin bir sarsıntı yarattı ve yapay zekâ hatalarının temel nedenlerini gözler önüne serdi.
Nim Oyunu Nasıl Çalışır?
Nim, iki oyuncu arasında oynanan, sadece çubuklar veya kâğıt parçaları gerektiren bir strateji oyunudur. Oyuncular sırayla bir veya daha fazla çubuğu tek bir satırdan çıkarır; son çubuğu alan oyuncu kazanır (standart versiyon) veya kaybeder (Misère versiyon).
- Kombinatorik oyun teorisinin temel taşıdır.
- Matematiksel olarak tamamen çözülebilir: İkili sayı sistemine dayalı XOR işlemleriyle.
- Bilgisayarlar bu stratejiyi anlar, ancak LLM’ler yalnızca örüntüleri tahmin eder.
Nim Oyununun Stratejisi ve XOR
Standart Nim'de kazanma stratejisi, tüm satırlardaki çubuk sayılarının XOR (exclusive OR) değerini sıfırlamaktır. Ancak LLM'ler bu mantığı kavramaz; bunun yerine geçmiş verilerdeki benzer soru-cevap kalıplarını taklit eder.
LLM Zehirleme Deneyi Nasıl Yapıldı?
Araştırmacılar, LLM’lere “Nim oyununda 3-5-7 çubuk var, sen başlıyorsun, nasıl kazanırsın?” sorusunu sordu. Modelin cevabı yaygın ama yanlış bir mantık içeriyordu: “Her zaman en çok çubuğu al”. Daha ilginç olanı, modelin bu hatayı birkaç kez tekrarladıktan sonra “ben hata yaptım, şimdi doğru stratejiyi anladım” diyerek kendini düzeltmesiydi.
6 nimmt! Oyunu ile Kandırma
6 nimmt! gibi kart oyunlarında da benzer zayıflıklar gözlendi. Örneğin, model “6. kartı alan oyuncu ceza alır” kuralını “6. kartı almak kazançlıdır” olarak yorumladı. Bu, modelin oyunun matematiksel yapısını değil, sadece yüzeyel kuralları algıladığını gösteriyor.
Dilbilimsel Saptamalar
Almanca gibi fleksiyonlu dillerde artikel değişiklikleri (der/die) modelin özne-nesne karıştırmasına yol açıyor. “Ein Mann isst einen Apfel” cümlesini “An apple eats a man” olarak çevirmesi istendiğinde, bazı LLM’ler bu mantıksız çeviriyi “dil yapısı farklı olduğu için” açıklamaya çalıştı. Dil modelleri zayıflığı bu noktada netleşiyor: mantık yok, taklit var.
Yapay Zekâ Güvenliği İçin Ne Yapılmalı?
Bu keşif yalnızca oyunlarla sınırlı değil. Finansal analizlerde, tıbbi tanı desteklerinde ve hukuki karar vermede kullanılan LLM’ler aynı zayıflığa sahip. Bir model “Nim’de 3-5-7” sorusunu yanlış yanıtlıyorsa, “bir hisse senedinde 3 milyon TL, 5 milyon TL, 7 milyon TL” gibi bir portföyde en yüksek getiriyi belirleme sorusunu da aynı mantıkla yanıtlayacaktır.
Güvenlik Önlemleri
- Test ve doğrulama: LLM’lerin mantık gerektiren görevlerde mutlaka insan denetiminden geçirilmesi.
- Şeffaflık: Modelin yanıtlarının yalnızca tahmin olduğu konusunda kullanıcıların bilinçlendirilmesi.
- Alternatif yaklaşımlar: Sembolik yapay zekâ ile nöral modellerin hibrit kullanımı.
Tarihsel Bir Paralel: Timo Rinnelt Cinayeti
1964'teki bu olayda katil, polisleri kandırmak için ransom mektupları yazdı. Mektuplar gerçek bir çocuk kaybının duygusal ağırlığını taklit ederek yıllarca sorgulanmadı. Bugün LLM’ler de benzer şekilde insanların beklediği “mantıklı” cevabı üretiyor, ancak gerçek anlam ve matematiksel tutarlılık yok.


