如果Multi-Head的作用是去关注句子的不同方面,那么我们认为,不同的头就不应该去关注一样的Token。当然,也有可能关注的pattern相同,但内容不同,也即 不同,这是有可能的。但是有大量的paper表明,Transformer,或Bert的特定层是有独特的功能的,底层更偏向于关注语法,顶层更偏向于关注语义。既然在同一层Transformer关注的方面是相同的,那么对该方面而言,不同的头关注点应该也是一样的。
查看更多
关注者
被浏览
发布 问题
分享 好友
手机 浏览
回到 顶部