为什么Transformer 需要进行 Multi-head Attention?

发布于 2021-02-22 11:06:35

如果Multi-Head的作用是去关注句子的不同方面,那么我们认为,不同的头就不应该去关注一样的Token。当然,也有可能关注的pattern相同,但内容不同,也即 不同,这是有可能的。但是有大量的paper表明,Transformer,或Bert的特定层是有独特的功能的,底层更偏向于关注语法,顶层更偏向于关注语义。既然在同一层Transformer关注的方面是相同的,那么对该方面而言,不同的头关注点应该也是一样的。

查看更多

0

关注者

237

被浏览

0 个回答
暂无答案,快来添加答案吧

撰写答案

请登录后再发布答案,点击登录

发布
问题

分享
好友

手机
浏览

扫码手机浏览
0.061349s