关于多模态融合领域,现在很多的都用起了multimodal transformer,关于这个方法的优势劣势是什么,是否会成为接下来多模态领域的主流?
关注者
被浏览
transformer提出时首先被用于机器翻译任务,接着逐渐代替LSTM,在NLP任务中成为主流架构。这两年CV任务也出现了transformer的身影,detr、vit等结构也达到了cnn相近甚至超越cnn的性能。除了分类,分割,检测之外,还有一些比较细化的方向,比如病灶检测,reid等,transformer的变种都达到了SOTA的效果。在多模态任务中,transformer也已经出现,像VQA的mcan,image captioning的meshed memory,xtransformer都是基于transformer的改进,并且都达到了sota的的效果。因为我自己是做image captioning方向的,所以我觉得相比于CV,基于transformer的网络在多模态任务中能够有更好的发展,因为我觉得transformer的 encoder-decoder结构非常适合多模态任务。如果能够将transformer进行更好的改进,相信transfomer能成为多模态任务的主流架构。