机器学习

如何看待多模态transformer，是否会成为多模态领域的主流？

发布于 2021-02-22 09:14:56

关于多模态融合领域，现在很多的都用起了multimodal transformer，关于这个方法的优势劣势是什么，是否会成为接下来多模态领域的主流？

0

关注者

510

被浏览

1 个回答

5555556 2021-02-22

transformer提出时首先被用于机器翻译任务，接着逐渐代替LSTM，在NLP任务中成为主流架构。这两年CV任务也出现了transformer的身影，detr、vit等结构也达到了cnn相近甚至超越cnn的性能。除了分类，分割，检测之外，还有一些比较细化的方向，比如病灶检测，reid等，transformer的变种都达到了SOTA的效果。在多模态任务中，transformer也已经出现，像VQA的mcan，image captioning的meshed memory，xtransformer都是基于transformer的改进，并且都达到了sota的的效果。因为我自己是做image captioning方向的，所以我觉得相比于CV，基于transformer的网络在多模态任务中能够有更好的发展，因为我觉得transformer的 encoder-decoder结构非常适合多模态任务。如果能够将transformer进行更好的改进，相信transfomer能成为多模态任务的主流架构。

撰写答案

请登录后再发布答案，点击登录

登录注册新账号

关于作者

admin

暂无描述

提问

回答

被采纳

5

关注TA

发私信

相关问题

1

为什么Transformer 需要进行 Multi-head Attention？

2

Graph Attention Network的本质是什么？

3

如何通过机器学习实现拼图的拼接

热门解读

信息到推荐系统的模型

表征学习辅助点击率预测 Representation Learning-Assisted Click-Through Rate Prediction

DeepMCP网络详解

AUCµ: A Performance Metric for Multi-Class Machine Learning Models

Mish: A Self Regularized Non-Monotonic Neural Activation Function

Implicit Neural Representations with Periodic Activation Functions

A Survey on Deep Hashing Methods 深度散列方法综述

自适应学习速率SGD优化算法

MOBIUS：面向百度赞助搜索的下一代查询广告匹配

七个小朋友，只能切四刀，怎么把三个苹果均分？

热门问题

深度学习（deep learning）和极限学习机（extreme learning machine）的区别和联系之处？

如何评价ResNeSt：Split-Attention Networks？

123123123qeqweqwqew

如何看待多模态transformer，是否会成为多模态领域的主流？

今天创建的今天创建的今天创建的今天创建的

Graph Attention Network的本质是什么？

今天发布的问题，有多个标签

12312312312312312

为什么Transformer 需要进行 Multi-head Attention？

3123123dasdasdasdas

热门标签

自然语言处理模式识别机器学习数据挖掘 ai

js 123123 迁移学习回归分析梯度下降强化学习法深度学习多智能体深层神经网络 dd 提问注意力机制 123123123 拼图大革命人脸识别高斯过程非负矩阵分解近邻最近邻凸优化学习模式顺序决策特征提取支持向量机高维数据降维学习系统在线/主动学习迭代优化有监督/无监督学习贝叶斯网络聚类分析计算效率马尔科夫模型标记/未标记数据循环神经网络卷积神经网络知识图谱推荐系统图神经网络数据增强算法预测联合学习多目标模型

等待解答

如何通过机器学习实现拼图的拼接

12312312312312312

测试157157123123

测试123123123

为什么Transformer 需要进行 Multi-head Attention？

深度学习中Attention与全连接层的区别何在？

深度学习（deep learning）和极限学习机（extreme learning machine）的区别和联系之处？

Attention based model 是什么，它解决了什么问题？

如何评价ResNeSt：Split-Attention Networks？

为什么CNN里有maxpooling，没有minpooling?

推荐专家

yao

0个答案 0次被采纳

admin

11个答案 5次被采纳

发布
问题

手机
浏览

扫码手机浏览