GPT-4o’yu duydunuz, gördünüz. Demosunda iki yapay zekâ birlikte şarkı yazıp söylediler falan… Öyle bir dönemdeyiz ki, yapay zekâ alanındaki her yeni gelişme çok büyük. Biz çok büyük yaşadığımızdan değil, gelişmeler gerçekten de büyük. Birkaç sene alacağını düşündüğümüz gelişmeler birkaç ay sürüyor veya sürmüyor. Birkaç ay önce seksi bir startup olarak karşımıza çıkan ve milyonlarca dolar kaynak ayrılan şirketler bir anda aylık 5 dolarlık bir üyeliğin altına giriyor ve sonsuza dek yok oluyor. Öyle bir noktaya geldi ki yapay zekâ alanında teknoloji üretecek bir fikir direkt “çok riskli” kategorisinden doğuyor.
Multimodal agent’lar yapay zekâ alanında bir süredir en seksi konuların başında geliyor. Nedir bu multimodal agent’lar? Türkçeye “çok modlu modeller/sistemler” olarak çevrilebilecek bu terim, birden fazla veri türü veya girdi biçimi (metin, ses, görüntü gibi) ile etkileşimde bulunabilen yapay zekâ sistemlerini tanımlıyor. Dil modelleri etrafında şekillenen, günlük ve kurumsal hayatta çok fazla karşılık bulan yeni nesil yapay zekâ sistemleri artık çok modlu hale geliyor. Peki bu ne anlam ifade ediyor?
Bir ihtimaller denizi
Multimodal agent’ların ne yapabildiğine bakalım. OpenAI’ın ve bir sonraki gün Google’ın sunumlarında tüm dünyanın gördüğü ve konuştuğu üzere sadece dil değil görüntü ve ses gibi diğer duyu input’larını da alıyor ve üretken hale getiriyor. Bir videoyu izleyebiliyor, bir fotoğrafı analiz edebiliyor, bir veri setine bakıp yorum yapabiliyor, eskisinden daha iyi mantık kurabiliyor, sebep-sonuç ilişkisi çıkartabiliyor, gerçek zamanlı olarak görüntüyü tarif edebiliyor.
hos-geldin-2025-ic-gorseller-1Mesela yanınızda kediniz varken artık birkaç dolara sahip olduğunuz bir yapay zekâ üyeliği size “Aa yanındaki bu tatlı şey de kim?” diye sorabiliyor. “Bu Çiko, benim sevgili sarı kedim” dediğinizde Çiko’yu hatırlıyor. Aylar sonra başka bir konuşmada Çiko’dan bahsettiğinizde bu anı hatırlayıp bu an ile ilgili eğer isterseniz bir şiir bile yazabiliyor. Bir sunum dinlerken ekrana telefonu gösterdiğinizde ekranda gördüğünüz şeyi anlamanızı sağlıyor. Mesela bir matematik problemi gösterdiğinizde ona dair çözüm yolları üretiyor. İsterseniz direkt çözdürebiliyorsunuz isterseniz de bana bunu çözmeyi öğret, yemeyi değil balığı tutmayı öğret diyebiliyorsunuz.
Multimodal agent’ların potansiyel uygulamaları sınırsız. İş dünyasında, bu sistemler müşteri hizmetlerini dönüştürebilir, eğitim sektöründe öğrencilere kişiselleştirilmiş öğrenim deneyimleri sunabilir ve sağlık alanında teşhis süreçlerini hızlandırabilir. Örneğin, bir tıp öğrencisi, multimodal agent’a karmaşık bir tıbbi vaka sunabilir ve bu ajan, öğrenciye vaka analizi yaparak teşhis yöntemleri ve tedavi seçenekleri hakkında bilgi verebilir. Aynı zamanda, multimodal agent, hastanın geçmiş verilerini analiz ederek doktorlara daha kesin ve kişiselleştirilmiş tedavi önerileri sunabilir.
Araç değil arkadaş
Multimodal agent’lar sadece iş ve eğitim alanında değil, sosyal etkileşimlerde de büyük bir değişim yaratıyor. Artık yapay zekâ sadece bir araç değil, aynı zamanda bir arkadaş, bir danışman hatta bir yaratıcı partner haline geliyor. Bir film izlerken veya bir kitap okurken, yapay zekâyla bu deneyimleri daha da zenginleştirebilirsiniz. Örneğin, izlediğiniz film hakkında anında yorumlar yapabilir, filmin analizini yapabilir hatta alternatif sonlar hakkında tartışabilirsiniz. Okuduğunuz bir kitabın karakter analizini yapabilir ve bu karakterlerin farklı senaryolardaki davranışlarını tartışabilirsiniz.
Dil öğrenme uygulamaları bu noktadan sonra ne yapar mesela? Karşınıza alıp 220ms gecikmeyle konuşabildiğiniz bir multimodal AI asistan var artık hayatınızda. Üstelik istediğiniz hemen her konuyu konuşabiliyorsunuz. Sanat eleştirmeni, mutfak yardımcısı, eğitim asistanı, fitness koçu, seyahat asistanı… Yıllardır AI asistanlar nasıl hayatımıza girecek derken, “nasıl” gireceklerini artık net olarak görebildik. Haziran 2024 itibarıyla sadece telefon kameranızı göstererek şehrin her bir köşesi, binası, meydanıyla ilgili tarihi bilgileri alabilecek, isterseniz üzerine şiirler yazabilecek veya ne yapmak isterseniz yapabileceksiniz.
Şimdi bu sistemlerin mobil telefonunuza tamamen entegre çalıştığını hayal edin. Hoş geldin 2025…