如何看待多模态transformer,是否会成为多模态领域的主流?

发布于 2021-02-22 09:14:56

关于多模态融合领域,现在很多的都用起了multimodal transformer,关于这个方法的优势劣势是什么,是否会成为接下来多模态领域的主流?

查看更多

0

关注者

349

被浏览

1 个回答
5555556
5555556 2021-02-22

transformer提出时首先被用于机器翻译任务,接着逐渐代替LSTM,在NLP任务中成为主流架构。这两年CV任务也出现了transformer的身影,detr、vit等结构也达到了cnn相近甚至超越cnn的性能。除了分类,分割,检测之外,还有一些比较细化的方向,比如病灶检测,reid等,transformer的变种都达到了SOTA的效果。在多模态任务中,transformer也已经出现,像VQA的mcan,image captioning的meshed memory,xtransformer都是基于transformer的改进,并且都达到了sota的的效果。因为我自己是做image captioning方向的,所以我觉得相比于CV,基于transformer的网络在多模态任务中能够有更好的发展,因为我觉得transformer的 encoder-decoder结构非常适合多模态任务。如果能够将transformer进行更好的改进,相信transfomer能成为多模态任务的主流架构。

撰写答案

请登录后再发布答案,点击登录

发布
问题

分享
好友

手机
浏览

扫码手机浏览
0.062332s