Google Gemini 3 Flash'a 'Agentic Vision' Yeteneği Kazandırdı
Google Gemini 3 Flash'a 'Agentic Vision' Yeteneği Kazandırdı
Görsel Anlama Sürecini Aktif Bir İncelemeye Dönüştürüyor
Google, yapay zeka modeli Gemini 3 Flash için 'Agentic Vision' adı verilen yeni bir yetenek duyurdu. Bu yetenek, modelin görsel verileri işleme şeklini temelden değiştiriyor. Geleneksel ileri seviye modeller, dünyayı genellikle tek ve statik bir bakışla işlerken, Agentic Vision bu süreci aktif bir araştırmaya dönüştürüyor.
Şirketin açıklamasına göre, mevcut sistemler bir mikroçip üzerindeki seri numarası veya uzaktaki bir sokak levhası gibi ince detayları kaçırdığında tahmin yapmak zorunda kalıyor. Yeni sistem ise görüntü anlamayı statik bir eylemden, 'ajan' benzeri bir sürece evriltiyor.
'Düşün, Harekete Geç, Gözlemle' Döngüsü ile Çalışıyor
Agentic Vision'ın temelini, 'Düşün, Harekete Geç, Gözlemle' adı verilen bir döngü oluşturuyor. İlk adımda model, kullanıcı sorgusunu ve ilk görüntüyü analiz ederek çok adımlı bir plan oluşturuyor. İkinci adımda, görüntüleri işlemek veya analiz etmek için Python kodu oluşturup çalıştırıyor. Son adımda ise dönüştürülen görüntü, modelin bağlam penceresine eklenerek, nihai yanıt oluşturulmadan önce yeni veriler daha iyi bir bağlamda incelenebiliyor.
REKLAM
Bu yaklaşımın, çoğu görme testinde tutarlı bir şekilde yüzde 5 ila 10 arasında bir kalite artışı sağladığı belirtiliyor.
Pratik Uygulama Alanları ve Yetenekler
Yeni yetenek, Gemini 3 Flash modeline bir dizi yeni davranış kazandırıyor:
- Yakınlaştırma ve İnceleme: Model, ince detaylar algıladığında otomatik olarak görüntüyü yakınlaştırabiliyor. Plan denetleme platformu PlanCheckSolver.com, yüksek çözünürlüklü yapı planlarını iteratif olarak incelemek için bu özelliği kullanarak doğruluğunu yüzde 5 artırdı.
- Görüntü Açıklama: Model, yalnızca gördüğünü tanımlamakla kalmıyor, aynı zamanda kod çalıştırarak doğrudan tuval üzerine çizim yapabiliyor. Örneğin, bir eldeki parmakları sayarken, her parmağı tanımlamak için sınırlayıcı kutular ve sayısal etiketler çizebiliyor.
- Görsel Matematik ve Grafik Çizme: Agentic Vision, yoğun veri tablolarını ayrıştırabiliyor ve bulguları görselleştirmek için Python kodunu çalıştırabiliyor. Standart dil modellerinin çok adımlı görsel aritmetikte yanılsamaya düşme eğilimine karşı, hesaplamaları deterministik bir Python ortamına aktararak doğrulanabilir sonuçlar üretiyor.
Geliştiricilerin Kullanımına Açılıyor
Agentic Vision yeteneği, 'Thinking' modeli ile Gemini uygulamasına sunulmaya başlandı. Geliştiriciler, bu yeni özelliğe Google AI Studio ve Vertex AI'daki Gemini API'si üzerinden erişebiliyor. Google AI Studio'daki demo uygulaması, özelliğin çeşitli kullanım senaryolarını denemek için bir ortam sağlıyor.
Şirket, Agentic Vision'ın henüz başlangıç aşamasında olduğunu ve gelecekte görüntüleri döndürme veya görsel matematik işlemleri gibi daha fazla örtük kod tabanlı davranışın eklenmesinin planlandığını belirtiyor.