[1]

Chitta, S. et al. 2020. Multimodal Deep Learning: Integrating Vision and Language for Real-World Applications. Asian Journal of Multidisciplinary Research & Review. 1, 2 (Nov. 2020), 262–282.