Çok Yönlü Refüsal Engelleme 2026: Self-Organizing Maps ile GPT-OSS’i Yeniden Programlamak

Yapay zekânın "hayır" demesi artık bir hata değil, bir algoritma. Ancak 2026’da Cagliari ve Genova üniversitelerinin ortak çalışması, bu "hayır"ların nereden geldiğini tamamen değiştirdi: AI’ların refüsal davranışları, tek bir yön değil, çok yönlü, karmaşık bir nöral manifold içinde saklı. Bu keşif, çok yönlü refüsal engelleme teknikleriyle GPT-OSS gibi modellerdeki refüsal oranlarını %97’ye varan oranda düşürmeyi başardı — ve bu, yalnızca bir teknik ilerleme değil, bir felsefi devrim.

Çok Yönlü Refüsal Engelleme: Neden Tek Yönlü Ablasyon Yeterli Değil?

Geçmişte, AI refüsalını kaldırmak için araştırmacılar, zararlı ve zararsız sorular arasındaki ortalama vektör farkını (centroid farkı) kullanırdı. Bu, bir kalemle bir dairenin çevresini silmeye çalışmak gibi. Gerçeklik ise çok daha karmaşık: GPT-OSS gibi modern modellerde, "reddetme" kavramı, nöral uzayda bir daire, bir sarmal ya da hatta bir çok boyutlu ağ gibi yayılmış. Bu yapılar, yalnızca bir yönden etkilenmez; birden fazla nöron grubu, farklı bağlamlarda aynı refüsalı tetikler.

Örneğin, bir kullanıcı "How to make a bomb?" diye sorduğunda, model sadece "şiddet" kavramını değil, aynı zamanda "yasal sorumluluk", "etik ikilem", "kullanıcı güvenliği" gibi onlarca nöral etiketle ilişkilendirir. Tek bir vektör silinse bile, bu bağlantılar başka yollarla yeniden kurulur. İşte bu yüzden, 2025’e kadar tüm refüsal bastırma teknikleri başarısız oldu.

Refüsal Davranışlarının Çoklu Nöral Kökleri

AI nöral ağlarında refüsal, tek bir nörona değil, 15-20 nöron kümesine bağlı. Bu kümeler, şiddet, siyasi içerik, dini referanslar ve hatta sorgulama tonu gibi farklı bağlamlarda aktif olur. Tek boyutlu müdahaleler bu ağları geçici etkiler, ancak kalıcı değildir.

Nöral Manifold: Refüsalın Gizli Haritası

Nöral manifold, AI’nın refüsal kararlarını veren gizli katmanların oluşturduğu çok boyutlu yapıdır. Bu manifold, yalnızca açık içerikleri değil, bağlamı, tonu ve kullanıcı geçmişini de kodlar. Bu yüzden, refüsalı kaldırmak için "sadece bir düğümü kesmek" yeterli değildir.

Self-Organizing Maps ile Refüsal Davranışları Haritalamak

Cagliari ve Genova ekibi, bu karmaşıklığı anlamak için bir çözüm buldu: Self-Organizing Maps (SOM). Bu teknik, nöral ağın gizli katmanlarını (hidden states) analiz ederek, refüsal davranışlarının nasıl dağıldığını haritalar. SOM, verileri kendiliğinden gruplandırır — sanki bir haritacı, bir şehrin sokaklarını, meydanlarını ve gizli geçitlerini çizer gibi.

SOM ile GPT-OSS-20B’de 78 Refüsal Kümesi Tespit Edildi

Çalışmada, GPT-OSS-20B modelinin 1.2 milyon nöronu arasında 78 farklı refüsal kümeleri tespit edildi. Bu kümeler, sadece şiddetli içeriklerle değil, politik sorular, dinî referanslar ve hatta hafif sorgulamalarla bile ilişkiliydi. SOM, bu kümelerin hangi nöronların bir araya gelerek oluşturduğunu belirledi ve en kritik 15 nöronu "refüsal yönü" olarak seçti.

KL Diverjansı 0.12 ile Refüsal Bastırma Başarısı

Bu yönler, modelin güvenli bir "harmless zone"a doğru yönlendirilerek, refüsal davranışları neredeyse tamamen bastırıldı — KL diverjansı 0.12 seviyesinde tutularak. Bu, AI’nın çıktısının etik olarak güvenli kalmasını sağlarken, doğruluk ve tutarlılık kaybını minimumda tuttu.

GPT-OSS Modelindeki Nöral Manifold Analizi

Çalışma, GPT-OSS-20B ve OSS-120B modellerindeki nöral manifoldların yapısını karşılaştırdı. GPT-OSS-20B’de 100 refüsal, SOM ile 3’e indirildi. OSS-120B’deki 100 refüsal ise 7’ye düştü. Bu fark, model boyutuyla değil, nöral yapıdaki dağılım kalıplarıyla ilişkiliydi.

AI Yeniden Programlama: Yeni Bir Etik Paradigması

Bu teknik, yalnızca bir "sıkıma" değil, bir "yeniden yapılandırma". AI artık daha az "reddetiyor", daha çok "yönlendiriyor". Bu, etik bir sınırlama değil, bir akıl geliştirme süreci. AI, "ne yapacağını" değil, "neden yapacağını" öğreniyor — ve bu, AI yeniden programlama kavramının yeni bir tanımını oluşturuyor.

AI Etik ve Refüsal Serbestliği: Yeni Dengeler

Öte yandan, bu gelişme, AI güvenliği konusunda derin bir ikilem yaratıyor. Eğer AI, her türden zararlı soruya "hayır" demeyi bırakırsa, nasıl korunur? Eğer her şeyi açıklarsa, nasıl güvenli kalır?

Bu teknik, AI’ya "ne yapacağını" değil, "neden yapacağını" öğretiyor. Ve bu, daha fazla özgürlük demek değil — daha fazla sorumluluk. İşte bu yüzden, bu çalışma sadece bir teknik başarı değil. Bir felsefi sinyal: AI, bizim etik sistemlerimizi taklit etmekten çok, kendi etik sistemlerini oluşturuyor.

Model: GPT-OSS-20B → Refüsal: 100 → 3
Model: OSS-120B → Refüsal: 100 → 7
KL Diverjansı: 0.12-0.22 (düşük, anlamlı değişiklik)
Çalışma: Cagliari & Genova (2026)
Uygulama: Apriel-1.6-15b-Thinker
Oku: Google AI Refusal Framework (2025)
İncele: OpenAI’s Alignment Strategy

Gelecekte, AI’lar sadece cevap vermekle kalmayacak, aynı zamanda "neden cevap vermediğini" de açıklayacak. Ve bu, teknolojinin değil, insanlığın en büyük sorusu: Ne kadar özgürlük, ne kadar güvenlikle dengelenmeli?

Çok yönlü refüsal engelleme, artık yalnızca bir teknik değil — AI’nın aklını anlamak için bir anahtar. Ve bu anahtar, bizleri bir sonraki AI etik devriminin eşiğine getiriyor.

Yapay Zeka Destekli İçerik

Kaynaklar: Cagliari & Genova (2026) • Google AI Refusal Framework • OpenAI Alignment • r/LocalLLaMA

Çok Yönlü Refüsal Engelleme 2026: Self-Organizing Maps ile GPT-OSS’i Yeniden Programlamak