EN

MolmoWeb 2026: Ekran Görüntüsüyle Web Gezen İlk Açık Kaynak AI Agenti

calendar_today
schedule4 dk okuma
visibility12 okunma
trending_up7
MolmoWeb 2026: Ekran Görüntüsüyle Web Gezen İlk Açık Kaynak AI Agenti
Paylaş:
YAPAY ZEKA SPİKERİ

MolmoWeb 2026: Ekran Görüntüsüyle Web Gezen İlk Açık Kaynak AI Agenti

0:000:00

summarize3 Maddede Özet

  • 1AI2, ekran görüntülerini yorumlayarak webde tamamen bağımsız hareket eden ilk açık kaynak AI agenti MolmoWeb’i duyurdu. Sadece görselleri okuyan bu sistem, metin tabanlı API’lere ihtiyaç duymadan insan gibi tarayıcı kullanıyor.
  • 2AI2, Seattle merkezli nonprofit araştırma kurumu, 2026’da yapay zekânın webi anlama biçimini kökten değiştiren bir atılım gerçekleştirdi: MolmoWeb — ekran görüntülerini tek başına yorumlayarak tarayıcıda görevleri otomatikleştiren, ilk tamamen açık kaynak AI agenti .
  • 3Bu sistem, HTML, CSS veya API’lere hiç ihtiyaç duymadan, sadece kullanıcıların gördüğü ekran görüntüsünü analiz ederek klavye tuşlarına basar, butonlara tıklar ve sayfalar arasında gezinir.

psychology_altBu Haber Neden Önemli?

  • check_circleBu gelişme Yapay Zeka Modelleri kategorisinde güncel eğilimi etkiliyor.
  • check_circleTrend skoru 7 — gündemde görünürlüğü yüksek.
  • check_circleTahmini okuma süresi 4 dakika; karar vericiler için hızlı bir özet sunuyor.

AI2, Seattle merkezli nonprofit araştırma kurumu, 2026’da yapay zekânın webi anlama biçimini kökten değiştiren bir atılım gerçekleştirdi: MolmoWeb — ekran görüntülerini tek başına yorumlayarak tarayıcıda görevleri otomatikleştiren, ilk tamamen açık kaynak AI agenti. Bu sistem, HTML, CSS veya API’lere hiç ihtiyaç duymadan, sadece kullanıcıların gördüğü ekran görüntüsünü analiz ederek klavye tuşlarına basar, butonlara tıklar ve sayfalar arasında gezinir. Web artık sadece kod değil, görsel deneyim. Ve MolmoWeb, bu deneyimi anlayan görsel web agenti.

MolmoWeb Nasıl Çalışır? Ekran Görüntüsüyle Web Gezen AI Agenti

MolmoWeb, AI2’nin Molmo multimodal modelinin özgün uzantısı. Sadece bir ekran görüntüsü alır ve içindeki butonları, metin kutularını, menüleri ve navigasyon öğelerini insan gibi tanımlar. Ardından, görevi anlar — örneğin "en ucuz uçak bileti bul" veya "bu ürünü sepete ekle" — ve adım adım bir eylem planı oluşturur.

1. Görsel Algı: Kod Okumadan Anlama

Model, HTML veya JavaScript kodunu okumaz. Sadece renk, konum, boyut, metin ve görsel bağlamsal ipuçlarını analiz eder. Örneğin, "Satın Al" butonu, "Sepete Ekle" butonundan farklıdır — bu ayrımı, sadece yazıyla değil, çevre metinler, boyut ve geçmiş davranışlarla çıkarır.

2. İnsan Davranışlarından Öğrenme

MolmoWeb, 30.000’den fazla gerçek kullanıcı trajektorisiyle eğitildi. Bu veriler, insanların tarayıcıda yaptığı tıklamalar, kaydırmalar ve yazım hareketlerini yansıtır. Örneğin, bir kullanıcı "fatura ödemek" için önce müşteri girişi sayfasına gider, sonra şifresini girer, ardından "ödeme" butonuna tıklar. MolmoWeb bu sıralamayı, kod okumadan, sadece görsel izlerle öğrenir.

3. Dinamik Sitelerde Başarı

JavaScript ile zenginleştirilmiş, API’lerle kilitlenmiş modern sitelerde geleneksel otomasyon araçları başarısız olurken, MolmoWeb bu zorlukları aşar. Çünkü onun için web, kod değil, görünür deneyimdir.

Neden Bu Teknoloji Devrim Yaratıyor?

MolmoWeb, yalnızca bir araç değil, bir felsefi değişim. Uzun yıllar web, "kodun dünyası" olarak kabul edildi. MolmoWeb, bu dünyayı "insanın dünyası" haline getiriyor. Eğer bir insan bir ekran görüntüsüne bakarak bir web sitesini kullanabiliyorsa, neden bir AI yapamasın?

1. Görsel Yetkinlik + Görev Odaklı Akıl Yürütme

The AI Economy’ye göre, MolmoWeb’in en çarpıcı özelliği, "görsel yetkinlik" ile "görev odaklı akıl yürütme"nin birleşimi. Model bir butonu görmez; "bu butonun ne işe yaradığını" anlar. Bu, AI’nın sadece "görmekten" öte, "anlamak" seviyesine ulaştığını gösterir.

2. Gerçek Dünya Uygulamaları

  • E-ticaret analistleri: 100 farklı mağazanın fiyatlarını her gün ekran görüntüsüyle toplayabilir — hiçbir API anahtarı olmadan.
  • Sağlık araştırmacıları: Hastane randevu sistemlerindeki boş zamanları görsel olarak tarayabilir.
  • Erişilebilirlik geliştiricileri: Görsel engelli kullanıcılar için sesli tarayıcılar, dilsiz kullanıcılar için görsel komutlar geliştirebilir.

Açık Kaynak Olmasının Avantajları

MolmoWeb, hem açık kaynak AI agenti hem de tamamen eğitilmiş bir model sunuyor. Bu, küçük şirketler, akademik araştırmacılar ve bireysel geliştiriciler için devrim yaratıyor.

1. Tamamen Serbest Erişim

Tüm ağırlıklar, eğitim kodu ve veri seti GitHub’da serbestçe erişilebilir. Herkes kendi ihtiyaçlarına göre özelleştirebilir, geliştirebilir ve paylaşabilir.

2. Veri Monopolünü Kırıyor

Google, Amazon ve Microsoft gibi şirketlerin kapalı API’leri, küçük oyuncuları dışlamıştı. MolmoWeb, bu monopolü kırıyor. Web artık sadece büyük teknoloji şirketlerinin elinde değil, herkesin elinde.

3. Küresel Erişilebilirlik

Köylerdeki sınırlı internete sahip bölgelerde, sadece görsel arayüzle çalışan AI’lar — MolmoWeb’in mirasından doğacak. Açık kaynak olması, bu teknolojinin tüm dünyaya yayılmasını kolaylaştırıyor.

MolmoWeb, sadece bir AI agenti değil, web’in geleceğine dair bir vaat. Artık web, sadece kod değil, görsel deneyim. Ve artık, görsel deneyimi anlayan açık kaynak AI agenti, onu yönetiyor. Bu, teknolojinin insanla daha da yakınlaşması anlamına geliyor — ve bu, gerçekten etkileyici bir ilerleme.

starBu haberi nasıl buldunuz?

İlk oylayan siz olun!