Bir Öğrenci, 1200 Dolarla Dünyanın En Ucuz Multimodal AI Modelini Yarattı

Bir Öğrenci, 1200 Dolarla Dünyanın En Ucuz Multimodal AI Modelini Yarattı
Bir Öğrenci, 1200 Dolarla Dünyanın En Ucuz Multimodal AI Modelini Yarattı
Bir üniversite öğrencisi, Amazon’dan kiralanmış bir GPU ile, 1200 dolarlık bütçeyle, 5 milyar parametrelik bir yapay zeka modelini sıfırdan eğitti. Bu değil, bir teknoloji hikayesi; bir direniş hikayesi. Dhi-5B, adını Hindistan’da kullanılan bir kelimeden alan bu model, sadece bir yazılım değil, AI dünyasında ‘hiçbir şeyim yok ama yine de yaparım’ felsefesinin somut bir örneği.
Reddit’deki r/LocalLLaMA forumunda paylaşılan bu proje, 24 saat içinde 15 bin upvote aldı. Ama bu başarı, sadece sosyal medyada dikkat çekmek için değil; AI endüstrisindeki derin bir adalet eksikliğini ortaya çıkarmak için. Bugün, büyük teknoloji şirketleri 100 milyon dolarlık bilişim altyapısıyla model eğitiyor. Bu öğrenci ise, kendi cebinden çıkan 1.1 lakh rupi (yaklaşık 1200 dolar) ile, aynı sonucu üretti.
Nasıl Yapıldı? Sıfırdan Eğitimdeki 5 Aşama
Dhi-5B’nin geliştirilmesi, beş aşamalı bir yolculuktu. Her aşama, hem teknik zorluk hem de finansal disiplin gerektiriyordu.
- Ön Eğitim (Pre-Training): Modelin temelini oluşturan bu aşamada, 4 milyar parametrelik bir dil modeli, milyonlarca metin parçası üzerinde eğitildi. Bu aşama, genellikle binlerce GPU saatini tüketir. Ancak öğrenci, veri verimliliğini artırmak için ‘kaynak optimizasyonu’ stratejileri kullandı: veri setlerini filtreledi, tekrarlı örnekleri çıkardı, eğitim döngülerini dinamik olarak ayarladı.
- Çerçeve Uzatma (Context-Length-Extension): Çoğu açık kaynak model 4096 token’lık bağlamı işleyebilir. Dhi-5B, bu sınırı 16.000’e çıkardı — bu, bir belgenin tamamını tek seferde okuyabilme anlamına geliyor. Bu, yalnızca mimari değişiklik değil; eğitim stratejisinin tamamen yeniden tasarlanmasıydı.
- Orta Eğitim (Mid-Training): Bu aşamada, model sadece ‘çok veri’ değil, ‘çok kaliteli veri’yle eğitildi. Öğrenci, akademik makaleler, tarihi metinler ve doğrulanmış diyalog veri setlerini birleştirdi. Bu, modelin ‘akıllı’ olmaktan öte, ‘anlayan’ bir yapıya kavuşmasını sağladı.
- Denetimli İnce Ayar (SFT): Model, insan etiketli diyaloglarla eğitilerek sohbet yeteneği kazandı. Burada kullanılan teknik, yalnızca cevapları değil, ‘düşünme sürecini’ de taklit etmeyi hedefliyordu. Sonuç: Dhi-5B, ‘evet’ demek yerine ‘neden evet?’ diye sormayı öğrendi.
- Görsel Uzantı (Vision-Extension): Bu, modeli multimodal hale getiren son aşama. Görselleri metinle ilişkilendirebilmek için, resim-çerçeve eşlemeleriyle eğitildi. Bu aşamada, öğrenci, açık kaynaklı görsel encoder’ları kendi kod tabanına entegre etti — bir adım öne geçerek, GPT-4V gibi kapalı sistemlerin kapısını çaldı.
Neden Bu Kadar Önemli?
Dhi-5B, sadece bir model değil; bir felsefeyi temsil ediyor. AI endüstrisi, son 5 yılda ‘büyük model = büyük para’ mantığına büründü. Büyük şirketler, veri ve hesaplama gücünü monopolize etti. Bu, dünyanın geri kalanını dışladı. Ama bu öğrenci, bu sistemin kırılganlığını gösterdi: Yaratıcılık, bütçeden daha güçlüdür.
Öğrenci, sadece bir model değil, bir ‘kod tabanı’ da paylaştı. GitHub’daki repoları, eğitim süreçlerini adım adım açıklıyor. Bu, bir ‘AI için açık kaynak devrimi’ başlatabilir. Özellikle Afrika, Güneydoğu Asya ve Latin Amerika’daki üniversiteler, artık kendi modellerini eğitebilir. Bütçe değil, zeka kritik.
Google, Meta, OpenAI gibi şirketler, Dhi-5B’yi ‘küçük bir ilgi’ olarak görse de, bu modelin etkisi gelecekte daha büyük olacak. Çünkü bu, bir ‘çalışma modeli’ — herkesin erişebileceği bir AI modeli. Bu, teknolojiye erişimin demokratikleşmesi anlamına geliyor.
Gelecek: Dhi-5B-Instruct ve Dhi-5B (Tam Sürüm)
Şu anda sadece Dhi-5B-Base (4 milyar parametre) açıklandı. Ancak öğrenci, kısa sürede Dhi-5B-Instruct ve tam multimodal sürüm olan ‘The Dhi-5B’yi yayınlayacağını duyurdu. Bu sürüm, görsel ve metin tabanlı soruları aynı anda çözebilecek. Örneğin: ‘Bu fotoğrafın içindeki insan ne hissediyor?’ gibi sorulara cevap verebilir.
Yakın gelecekte, Dhi-5B, Hugging Face’te ücretsiz olarak yayınlanacak. Bu, 1200 dolarlık bir projenin, dünya çapında milyonlarca öğrenci ve araştırmacıya ulaşmasını sağlayacak.
Sonuç: Teknoloji, Bütçede Değil, İradeye Dair
Bu hikaye, teknolojinin asıl mühendisini ‘bütçe’ değil, ‘kararlılık’ olduğunu gösteriyor. Dhi-5B, yalnızca bir AI modeli değil; bir çağrışım. Bir çağrışım: ‘Yapmak istiyorsan, yeterli kaynağın olmasa bile, yapabilirsin.’
Gelecekteki AI tarihi, büyük şirketlerin kâr hedefleriyle değil, bu öğrencinin odasından çıkan bu modelle yazılacak. Çünkü burada, bir öğrenci, bir laptop, bir kredi kartı ve bir hayal vardı. Ve o, dünya üzerindeki en büyük teknoloji şirketlerinin bir kısmını kendi eliyle aştı.


