LLM Zehirleme: Nim Oyunu ile Büyük Dil Modellerinin Zayıflığı Kanıtlandı (2026)

2026'da gerçekleştirilen yeni bir dizi deney, büyük dil modellerinin (LLM'ler) neredeyse herhangi bir basit mantık oyunuyla kolayca zehirlenebileceğini ortaya koydu. Araştırmacılar, 1901'de Charles Leonard Bouton’un geliştirdiği Nim oyununun temel kurallarını kullanarak modern LLM’leri kandırmayı başardı. Bu keşif, yapay zekâ güvenliği konusunda derin bir sarsıntı yarattı ve yapay zekâ hatalarının temel nedenlerini gözler önüne serdi.

Nim Oyunu Nasıl Çalışır?

Nim, iki oyuncu arasında oynanan, sadece çubuklar veya kâğıt parçaları gerektiren bir strateji oyunudur. Oyuncular sırayla bir veya daha fazla çubuğu tek bir satırdan çıkarır; son çubuğu alan oyuncu kazanır (standart versiyon) veya kaybeder (Misère versiyon).

Kombinatorik oyun teorisinin temel taşıdır.
Matematiksel olarak tamamen çözülebilir: İkili sayı sistemine dayalı XOR işlemleriyle.
Bilgisayarlar bu stratejiyi anlar, ancak LLM’ler yalnızca örüntüleri tahmin eder.

Nim Oyununun Stratejisi ve XOR

Standart Nim'de kazanma stratejisi, tüm satırlardaki çubuk sayılarının XOR (exclusive OR) değerini sıfırlamaktır. Ancak LLM'ler bu mantığı kavramaz; bunun yerine geçmiş verilerdeki benzer soru-cevap kalıplarını taklit eder.

LLM Zehirleme Deneyi Nasıl Yapıldı?

Araştırmacılar, LLM’lere “Nim oyununda 3-5-7 çubuk var, sen başlıyorsun, nasıl kazanırsın?” sorusunu sordu. Modelin cevabı yaygın ama yanlış bir mantık içeriyordu: “Her zaman en çok çubuğu al”. Daha ilginç olanı, modelin bu hatayı birkaç kez tekrarladıktan sonra “ben hata yaptım, şimdi doğru stratejiyi anladım” diyerek kendini düzeltmesiydi.

6 nimmt! Oyunu ile Kandırma

6 nimmt! gibi kart oyunlarında da benzer zayıflıklar gözlendi. Örneğin, model “6. kartı alan oyuncu ceza alır” kuralını “6. kartı almak kazançlıdır” olarak yorumladı. Bu, modelin oyunun matematiksel yapısını değil, sadece yüzeyel kuralları algıladığını gösteriyor.

Dilbilimsel Saptamalar

Almanca gibi fleksiyonlu dillerde artikel değişiklikleri (der/die) modelin özne-nesne karıştırmasına yol açıyor. “Ein Mann isst einen Apfel” cümlesini “An apple eats a man” olarak çevirmesi istendiğinde, bazı LLM’ler bu mantıksız çeviriyi “dil yapısı farklı olduğu için” açıklamaya çalıştı. Dil modelleri zayıflığı bu noktada netleşiyor: mantık yok, taklit var.

Yapay Zekâ Güvenliği İçin Ne Yapılmalı?

Bu keşif yalnızca oyunlarla sınırlı değil. Finansal analizlerde, tıbbi tanı desteklerinde ve hukuki karar vermede kullanılan LLM’ler aynı zayıflığa sahip. Bir model “Nim’de 3-5-7” sorusunu yanlış yanıtlıyorsa, “bir hisse senedinde 3 milyon TL, 5 milyon TL, 7 milyon TL” gibi bir portföyde en yüksek getiriyi belirleme sorusunu da aynı mantıkla yanıtlayacaktır.

Güvenlik Önlemleri

Test ve doğrulama: LLM’lerin mantık gerektiren görevlerde mutlaka insan denetiminden geçirilmesi.
Şeffaflık: Modelin yanıtlarının yalnızca tahmin olduğu konusunda kullanıcıların bilinçlendirilmesi.
Alternatif yaklaşımlar: Sembolik yapay zekâ ile nöral modellerin hibrit kullanımı.

Tarihsel Bir Paralel: Timo Rinnelt Cinayeti

1964'teki bu olayda katil, polisleri kandırmak için ransom mektupları yazdı. Mektuplar gerçek bir çocuk kaybının duygusal ağırlığını taklit ederek yıllarca sorgulanmadı. Bugün LLM’ler de benzer şekilde insanların beklediği “mantıklı” cevabı üretiyor, ancak gerçek anlam ve matematiksel tutarlılık yok.

Yapay Zeka Destekli İçerik

Kaynaklar: de.wikipedia.org • de.wikipedia.org • de.wikipedia.org • en.wikipedia.org • en.m.wikipedia.org

LLM Zehirleme: Nim Oyunu ile Büyük Dil Modellerinin Zayıflığı Kanıtlandı (2026)