TA的回答 - 我的网站问答社区

transformer提出时首先被用于机器翻译任务，接着逐渐代替LSTM，在NLP任务中成为主流架构。这两年CV任务也出现了transformer的身影，detr、vit等结构也达到了cnn相近甚至超越cnn的性能。除了分类，分割，检测之外，还有一些比较细化的方向，比如病灶检测，reid等，transformer的变种都达到了SOTA的效果。在多模态任务中，transformer也已经出现，像VQA的mcan，image captioning的meshed memory，xtransformer都是基于transformer的改进，并且都达到了sota的的效果。因为我自己是做image captioning方向的，所以我觉得相比于CV，基于transformer的网络在多模态任务中能够有更好的发展，因为我觉得transformer的 encoder-decoder结构非常适合多模态任务。如果能够将transformer进行更好的改进，相信transfomer能成为多模态任务的主流架构。

问如何看待多模态transformer，是否会成为多模态领域的主流？

会员统计

问 如何看待多模态transformer，是否会成为多模态领域的主流？

会员统计

问如何看待多模态transformer，是否会成为多模态领域的主流？