Chitta, Subrahmanyasarma, et al. “Multimodal Deep Learning: Integrating Vision and Language for Real-World Applications”. Asian Journal of Multidisciplinary Research & Review, vol. 1, no. 2, Nov. 2020, pp. 262-8, https://ajmrr.org/journal/article/view/211.