Google Gemini 3’ün Yeni Özelliği Duyuruldu

Google, yapay zeka modellerini daha yetenekli hale getirmek için çalışmalarına hız kesmeden devam ediyor. Teknoloji devi, Gemini 3 Flash modeli için “Agentic Vision” (Ajan Görüşü) adını verdiği yeni ve güçlü bir yetenek duyurdu. Bu yeni özellik, görsellerle ilgili görevlerin çok daha doğru ve güvenilir bir şekilde yerine getirilmesini sağlamayı amaçlıyor. Sistem, kullanıcılara verdiği yanıtları tahminlere değil, doğrudan görsel kanıtlara dayandırarak çalışıyor ve bu sayede hata payını en aza indirmeyi hedefliyor.

Yapay Zekada Yeni Dönem: Gemini Artık Görselleri Kodla Analiz Ediyor

Standart yapay zeka modelleri, dünyayı genellikle tek ve sabit bir bakışla işlemeye çalışır. Eğer model, bir mikroçip üzerindeki seri numarası veya uzaktaki bir tabela gibi ince bir detayı gözden kaçırırsa, sonucu mecburen tahmin etmek zorunda kalır. Ancak Google’ın bu yeni yaklaşımı, görme eylemini pasif bir süreçten çıkarıp “aktif bir soruşturma” olarak ele alıyor. Model, sadece bakmakla yetinmiyor; görsel akıl yürütme yeteneğini kod çalıştırma araçlarıyla birleştirerek görüntüyü detaylıca analiz ediyor.

Gemini 3 Flash, görsel içeren komutları en iyi şekilde yanıtlamak için görüntüleri yakınlaştırma, inceleme ve işleme gibi adım adım planlar oluşturuyor. Bu süreçte özellikle “Düşün, Hareket Et, Gözlemle” döngüsünden yararlanılıyor. Model önce kullanıcının isteğini analiz edip bir plan yapıyor, ardından Python kodu kullanarak görüntüyü kırpma, döndürme veya analiz etme gibi eylemleri gerçekleştiriyor. Son olarak, dönüştürülen görüntüyü bağlamına oturtarak nihai yanıtı oluşturmadan önce tekrar inceliyor.

Model, kendisine verilen bir görüntüyü sadece sözlü olarak tanımlamakla kalmıyor, aynı zamanda akıl yürütme sürecini temellendirmek için doğrudan tuval üzerine çizim yapabiliyor. Örneğin, bir eldeki parmakları sayarken hata yapmamak için her parmağın üzerine sınırlayıcı kutular ve sayısal etiketler ekleyebiliyor. Bu “görsel karalama defteri” yöntemi, cevabın piksel düzeyinde mükemmel olmasını ve sayım hatalarının önüne geçilmesini sağlıyor. Ayrıca model, ince detayları tespit ettiğinde otomatik olarak yakınlaştırma yapabiliyor ve yoğun veri içeren tabloları analiz edebiliyor.

Standart dil modelleri karmaşık görsel matematiksel işlemlerde sıklıkla hata yapabilirken, Gemini 3 Flash hesaplamaları deterministik bir Python ortamına aktararak bu sorunu büyük ölçüde aşıyor. Bu sayede olasılıksal tahminlerin yerini doğrulanabilir ve kesin işlemler alıyor. Agentic Vision, çoğu görsel testte %5 ila %10 arasında tutarlı bir kalite artışı sağlıyor. Bu özellik şu anda geliştiriciler için Google AI Studio ve Vertex AI üzerinden erişilebilir durumda ve Gemini uygulamasına da sunulmaya başlandı. Gelecekte ise web araması ve tersine görsel arama gibi araçlarla modelin dünyayı anlama yeteneğinin daha da genişletilmesi planlanıyor.

Yapay zekanın görselleri sadece görmeyip, onlar üzerinde aktif işlem yapabilmesi ve kod çalıştırarak analiz etmesi hakkında siz ne düşünüyorsunuz? Sizce bu özellik en çok hangi alanlarda işimize yarayacak?

Google Gemini 3’ün Yeni Özelliği Duyuruldu

Benzer İçerikler