Back to Search View Original Cite This Article

Abstract

<jats:p>Yapay zekâ alanındaki son gelişmeler, metin ve görsel veriyi ortak bir temsil uzayında birleştirebilen Görsel-Dil Modellerinin (VLM) farklı disiplinlerde etkin biçimde kullanılmasını mümkün kılmıştır. Geleneksel tek-modlu görsel tanıma sistemlerinin ötesine geçen bu yenilikçi modeller; bağlamsal yorumlama, çok modlu muhakeme ve görev odaklı üretim süreçlerini destekleyen bütüncül yaklaşımlar sunmaktadır. Bu çalışma, Büyük Dil Modelleri (LLM) ve VLM tabanlı yaklaşımların temel mimari bileşenlerini detaylı bir şekilde ele alırken, uygulama boyutunda ağırlıklı olarak görsel dil modellerinin sektörel entegrasyonuna odaklanmayı amaçlamaktadır. Çalışmada öncelikle, her iki model ailesinin temelini oluşturan Transformer mimarisi; öz-dikkat (self-attention) mekanizmaları, tokenizasyon ve konumsal kodlama gibi süreçler bağlamında teknik olarak incelenerek LLM’lerin çalışma prensipleri açıklanmıştır. Devamında ise odak noktası tamamen çok modlu yapılara kaydırılarak, VLM ve eylem boyutuyla genişletilmiş Vision-Language-Action (VLA) mimarilerinin spesifik kullanım alanları detaylandırılmıştır. Bu kapsamda; otonom sürüş sistemlerinde uçtan uca planlama, robotik sistemlerde mekânsal temellendirme, sağlık alanında yapılandırılmış bilgi çıkarımı, tarımda uzaktan algılama ve alan-özgü tanı sistemleri ile insan odaklı görsel analiz görevlerindeki güncel yaklaşımlar incelenmiştir. Yapılan incelemeler, VLM tabanlı sistemlerin pasif bilgi işleyiciler olmaktan çıkarak, yüksek seviyeli semantik rehberlik sağlayan karar destek bileşenlerine evrildiğini göstermektedir. Bununla birlikte, modellerin gerçek dünya sistemlerine aktarımında karşılaşılan hesaplama maliyetleri, gerçek zamanlılık kısıtları ve halüsinasyon riskleri gibi mühendislik darboğazları tartışılmış; gelecekteki eğilimin parametre-verimli ve alan-özgü hibrit mimarilere yöneleceği sonucuna varılmıştır.</jats:p>

Show More

Keywords

görsel modellerinin çok modlu odaklı

Related Articles