关注者
被浏览
这里仅仅讨论视觉中的attentionattention的核心思想是根据全图的特征突出feature map中的某一核心部分,使得模型更加集中关注有效信息。所以前期的模型设计中更多采用一种类似于mask的方式,产生逐通道或逐像素的mask并与原feature map乘积,详见senet,cbam这种attention方式在全局池化的时候确实借鉴了全图的信息,但是仅用一种全图向量来增强原feature map本来就是受限的,于是参考transformer的kqv,non local横空出世,这种逐像素的attention扩大全局感受野的同时,权重的计算更加精细。但是由于要计算相关度矩阵,可能要消耗大量资源,所以后续也有一些轻量化方案,比如分块等等(待补充)时间来到2021,传统的卷积网络定式开始被打破,纯transformer开始进入cv领域,这类方法采用分patch的方式切分原图,并将其放入transformer中,也有无数的实例证明,在数据量极大的情况下,其性能能超越卷积。transformer在攻克了nlp的大量任务之后,再次为cv带来了新的曙光。