MolmoWeb 2026: Ekran Görüntüsüyle Web Gezen İlk Açık Kaynak AI Agenti

MolmoWeb 2026: Ekran Görüntüsüyle Web Gezen İlk Açık Kaynak AI Agenti
summarize3 Maddede Özet
- 1AI2, ekran görüntülerini yorumlayarak webde tamamen bağımsız hareket eden ilk açık kaynak AI agenti MolmoWeb’i duyurdu. Sadece görselleri okuyan bu sistem, metin tabanlı API’lere ihtiyaç duymadan insan gibi tarayıcı kullanıyor.
- 2AI2, Seattle merkezli nonprofit araştırma kurumu, 2026’da yapay zekânın webi anlama biçimini kökten değiştiren bir atılım gerçekleştirdi: MolmoWeb — ekran görüntülerini tek başına yorumlayarak tarayıcıda görevleri otomatikleştiren, ilk tamamen açık kaynak AI agenti .
- 3Bu sistem, HTML, CSS veya API’lere hiç ihtiyaç duymadan, sadece kullanıcıların gördüğü ekran görüntüsünü analiz ederek klavye tuşlarına basar, butonlara tıklar ve sayfalar arasında gezinir.
psychology_altBu Haber Neden Önemli?
- check_circleBu gelişme Yapay Zeka Modelleri kategorisinde güncel eğilimi etkiliyor.
- check_circleTrend skoru 7 — gündemde görünürlüğü yüksek.
- check_circleTahmini okuma süresi 4 dakika; karar vericiler için hızlı bir özet sunuyor.
AI2, Seattle merkezli nonprofit araştırma kurumu, 2026’da yapay zekânın webi anlama biçimini kökten değiştiren bir atılım gerçekleştirdi: MolmoWeb — ekran görüntülerini tek başına yorumlayarak tarayıcıda görevleri otomatikleştiren, ilk tamamen açık kaynak AI agenti. Bu sistem, HTML, CSS veya API’lere hiç ihtiyaç duymadan, sadece kullanıcıların gördüğü ekran görüntüsünü analiz ederek klavye tuşlarına basar, butonlara tıklar ve sayfalar arasında gezinir. Web artık sadece kod değil, görsel deneyim. Ve MolmoWeb, bu deneyimi anlayan görsel web agenti.
MolmoWeb Nasıl Çalışır? Ekran Görüntüsüyle Web Gezen AI Agenti
MolmoWeb, AI2’nin Molmo multimodal modelinin özgün uzantısı. Sadece bir ekran görüntüsü alır ve içindeki butonları, metin kutularını, menüleri ve navigasyon öğelerini insan gibi tanımlar. Ardından, görevi anlar — örneğin "en ucuz uçak bileti bul" veya "bu ürünü sepete ekle" — ve adım adım bir eylem planı oluşturur.
1. Görsel Algı: Kod Okumadan Anlama
Model, HTML veya JavaScript kodunu okumaz. Sadece renk, konum, boyut, metin ve görsel bağlamsal ipuçlarını analiz eder. Örneğin, "Satın Al" butonu, "Sepete Ekle" butonundan farklıdır — bu ayrımı, sadece yazıyla değil, çevre metinler, boyut ve geçmiş davranışlarla çıkarır.
2. İnsan Davranışlarından Öğrenme
MolmoWeb, 30.000’den fazla gerçek kullanıcı trajektorisiyle eğitildi. Bu veriler, insanların tarayıcıda yaptığı tıklamalar, kaydırmalar ve yazım hareketlerini yansıtır. Örneğin, bir kullanıcı "fatura ödemek" için önce müşteri girişi sayfasına gider, sonra şifresini girer, ardından "ödeme" butonuna tıklar. MolmoWeb bu sıralamayı, kod okumadan, sadece görsel izlerle öğrenir.
3. Dinamik Sitelerde Başarı
JavaScript ile zenginleştirilmiş, API’lerle kilitlenmiş modern sitelerde geleneksel otomasyon araçları başarısız olurken, MolmoWeb bu zorlukları aşar. Çünkü onun için web, kod değil, görünür deneyimdir.
Neden Bu Teknoloji Devrim Yaratıyor?
MolmoWeb, yalnızca bir araç değil, bir felsefi değişim. Uzun yıllar web, "kodun dünyası" olarak kabul edildi. MolmoWeb, bu dünyayı "insanın dünyası" haline getiriyor. Eğer bir insan bir ekran görüntüsüne bakarak bir web sitesini kullanabiliyorsa, neden bir AI yapamasın?
1. Görsel Yetkinlik + Görev Odaklı Akıl Yürütme
The AI Economy’ye göre, MolmoWeb’in en çarpıcı özelliği, "görsel yetkinlik" ile "görev odaklı akıl yürütme"nin birleşimi. Model bir butonu görmez; "bu butonun ne işe yaradığını" anlar. Bu, AI’nın sadece "görmekten" öte, "anlamak" seviyesine ulaştığını gösterir.
2. Gerçek Dünya Uygulamaları
- E-ticaret analistleri: 100 farklı mağazanın fiyatlarını her gün ekran görüntüsüyle toplayabilir — hiçbir API anahtarı olmadan.
- Sağlık araştırmacıları: Hastane randevu sistemlerindeki boş zamanları görsel olarak tarayabilir.
- Erişilebilirlik geliştiricileri: Görsel engelli kullanıcılar için sesli tarayıcılar, dilsiz kullanıcılar için görsel komutlar geliştirebilir.
Açık Kaynak Olmasının Avantajları
MolmoWeb, hem açık kaynak AI agenti hem de tamamen eğitilmiş bir model sunuyor. Bu, küçük şirketler, akademik araştırmacılar ve bireysel geliştiriciler için devrim yaratıyor.
1. Tamamen Serbest Erişim
Tüm ağırlıklar, eğitim kodu ve veri seti GitHub’da serbestçe erişilebilir. Herkes kendi ihtiyaçlarına göre özelleştirebilir, geliştirebilir ve paylaşabilir.
2. Veri Monopolünü Kırıyor
Google, Amazon ve Microsoft gibi şirketlerin kapalı API’leri, küçük oyuncuları dışlamıştı. MolmoWeb, bu monopolü kırıyor. Web artık sadece büyük teknoloji şirketlerinin elinde değil, herkesin elinde.
3. Küresel Erişilebilirlik
Köylerdeki sınırlı internete sahip bölgelerde, sadece görsel arayüzle çalışan AI’lar — MolmoWeb’in mirasından doğacak. Açık kaynak olması, bu teknolojinin tüm dünyaya yayılmasını kolaylaştırıyor.
MolmoWeb, sadece bir AI agenti değil, web’in geleceğine dair bir vaat. Artık web, sadece kod değil, görsel deneyim. Ve artık, görsel deneyimi anlayan açık kaynak AI agenti, onu yönetiyor. Bu, teknolojinin insanla daha da yakınlaşması anlamına geliyor — ve bu, gerçekten etkileyici bir ilerleme.


