Chitta, S. (2020) “Multimodal Deep Learning: Integrating Vision and Language for Real-World Applications”, Asian Journal of Multidisciplinary Research & Review, 1(2), pp. 262–282. Available at: https://ajmrr.org/journal/article/view/211 (Accessed: 7 June 2025).