Yerel AI ile Belge Redaksiyonu: Qwen 3 VL, PII'yi Görüp Siliyor

Yerel AI ile Belge Redaksiyonu: Qwen 3 VL, PII'yi Görüp Siliyor
Yerel AI ile Belge Redaksiyonu: Qwen 3 VL, PII'yi Görüp Siliyor
Belgelerdeki kimlik numarası, adres, banka hesabı veya sigorta numarası gibi kişisel verileri (PII) otomatik olarak tespit edip kırmızıya boyamak, yıllardır kurumsal ve kamu sektöründe bir kâbus oldu. Geleneksel OCR sistemleri metni okuyabiliyordu, ama ne zaman bir adresin altındaki bir satırın aslında bir telefon numarası olduğunu anlayabilirdi? Şimdi, bu kâbusun sonu geliyor — ve bu kez, bir AI modeli sadece metni okumuyor, görsel olarak görüyor, konumunu biliyor ve siliyor.
Reddit kullanıcıları ve AI geliştiricileri arasında büyük bir ses çıkaran bir proje, tam olarak bu sorunu çözüyor: Qwen 3 VL, bir yerel görsel dil modeli (VLM), belgelerdeki tüm metinleri yalnızca okumakla kalmıyor, her kelimenin tam koordinatlarını (bounding box) tespit ediyor ve bu verileri doğrudan redaksiyon süreçlerine entegre ediyor. Bu proje, sadece bir yazılım değil, bir felsefenin ifadesi: Veri gizliliği, bulutta değil, cihazın içinde olmalı.
Neden Bu Kadar Önemli?
PII redaksiyonu, özellikle sağlık, mali hizmetler ve kamu idaresi alanlarında yasal zorunluluklarla örtüşüyor. GDPR, HIPAA, CCPA gibi düzenlemeler, kişisel verilerin yanlışlıkla paylaşılmasını yasaklıyor. Ancak mevcut çözümler — Google Cloud Vision, Amazon Textract veya hatta Adobe Acrobat’ın otomatik redaksiyonu — ya bulutta çalışıyor, ya da sadece metin tabanlı analiz yapıyor. Sonuç? Bir metin içindeki "TC Kimlik No: 12345678901"yi bulabiliyorlar, ama aynı satırda yer alan bir imza alanı veya bir fotoğrafın altında yazan "Doğum Tarihi: 05.03.1982"yi görmezden geliyorlar. Çünkü onlar, metni okuyorlar — ama sayfayı görmüyorlar.
Qwen 3 VL, tam olarak bu boşluğu dolduruyor. Bu model, bir PDF sayfasını bir fotoğraf gibi algılar. Her kelimenin, rakamın, imzanın, tablonun tam konumunu belirler. Bu sayede, bir "SSN: 444-55-6666" ifadesini sadece metin olarak değil, aynı zamanda sayfadaki kutu olarak tespit eder. Redaksiyon uygulaması, bu kutuyu tamamen kapatarak, veriyi hem metinsel hem de görsel olarak siler. Artık bir redaksiyon sonrası belgede "[Kırmızı Kutu]" değil, tamamen orijinal sayfa düzeni korunur — sadece veri yok olur.
Arxiv’teki SCAN Projesi: Görsel Anlama Devrimi
Bu gelişmenin arkasında sadece bir GitHub reposu değil, derin akademik bir temel var. Şubat 2026’da arXiv’te yayınlanan SCAN (Semantic Document Layout Analysis) projesi, belge analizindeki yeni bir paradigmayı tanımlıyor: Metin ve görsel bilginin birlikte yorumlanması. SCAN, bir belgenin sadece metin içeriğini değil, sayfa düzenini, başlık-alt başlık hiyerarşisini, tablo konumlarını, görsellerin metinle ilişkisini ve hatta görsel vurguları (kalın yazı, altı çizili metin) anlamaya çalışıyor. Bu, AI’nın bir belgeyi bir insan gibi okumasını sağlıyor: "Bu metin bir başlık mı? Bu tablo veri mi? Bu imza alanı yasal bir onay mı?"
Qwen 3 VL tabanlı redaksiyon uygulaması, SCAN’ın teorik temellerini pratik bir araç haline getiriyor. Yani bu sadece bir "çözüm" değil, bir bilimsel ilerleme — ve bu ilerleme, açık kaynak olarak herkese sunulmuş durumda.
Açık Kaynak: Güvenlik İçin En Güçlü Silah
Projenin en çarpıcı yanı, tamamen açık kaynak olması. Geliştirici Sean Pedrick, GitHub deposunda tüm kodu, modeli ve eğitim verilerini paylaştı. Bu, sadece bir yazılım paylaşımı değil, bir etik ilke. Kurumlar artık, bir şirketin "bulutlu PII redaksiyon servisi"ne güvenmek zorunda kalmıyor. Kendi sunucularında, kendi ağlarında, kendi cihazlarında çalıştırabiliyorlar. Veri hiçbir zaman dışarı çıkmıyor. Bu, özellikle finansal kurumlar ve devlet kurumları için bir kurtuluş.
Ek olarak, Qwen 3 VL, 7B ve 14B parametreli sürümleriyle, bir RTX 3090 gibi yaygın bir grafik kartı üzerinde bile çalışabiliyor. Bu, büyük kurumlar için değil, küçük avukatlık ofisleri, sağlık merkezleri ve hatta bireysel avukatlar için bile erişilebilir bir çözüm haline geliyor.
Gelecek: AI, Sadece Okumuyor, Anlıyor
Bu teknoloji, sadece PII redaksiyonu için değil, çok daha geniş bir yelpazede kullanılabilir. Bir avukat, bir dava dosyasındaki tüm yasal referansları otomatik olarak işaretleyebilir. Bir sigorta şirketi, bir tıbbi raporda "hastalığın başlangıç tarihi"ni görsel olarak tespit edip, otomatik olarak ödeme sürecini başlatabilir. Bir banka, bir imza sayfasında imzanın gerçek mi, sahte mi olduğunu görsel olarak analiz edebilir.
Qwen 3 VL ve benzeri yerel VLM’ler, AI dünyasında bir dönüşümün başlangıcını işaret ediyor: AI artık sadece metni işliyor, artık sayfayı okuyor. Ve bu, veri gizliliği savaşında, sadece bir araç değil, bir hukuki ve etik savunma çizgisi haline geliyor.
Yerel AI, artık bir trend değil, bir zorunluluk. Ve bu, sadece teknoloji değil — bir özgürlük.


