5555556
5555556

注册于 3年前

回答
1
解读
0
关注者
1

transformer提出时首先被用于机器翻译任务,接着逐渐代替LSTM,在NLP任务中成为主流架构。这两年CV任务也出现了transformer的身影,detr、vit等结构也达到了cnn相近甚至超越cnn的性能。除了分类,分割,检测之外,还有一些比较细化的方向,比如病灶检测,reid等,transformer的变种都达到了SOTA的效果。在多模态任务中,transformer也已经出现,像VQA的mcan,image captioning的meshed memory,xtransformer都是基于transformer的改进,并且都达到了sota的的效果。因为我自己是做image captioning方向的,所以我觉得相比于CV,基于transformer的网络在多模态任务中能够有更好的发展,因为我觉得transformer的 encoder-decoder结构非常适合多模态任务。如果能够将transformer进行更好的改进,相信transfomer能成为多模态任务的主流架构。

发布
问题