admin
admin

注册于 7年前

回答
11
解读
30
关注者
3

目前主流研究使用 Attention 进行边的动态调整,如果你的数据本身不是图结构,又找不到好的距离函数或者难以表达节点之间的相关关系,或许 Attention 是一个不错的选择 ~什么是 Attention在机器学习研究中,很多论文习惯用“人是怎样认识世界的“来类比“模型是怎样识别模式的”,虽然没那么清晰严谨但是形象生动。注意力也是类比了人的思维习惯。人在观察的时候是会抓重点的:我们在读句子的时候可能会更关注句子中的几个单词(NLP)揣测发言者的情感,在看图片的时候可能更关注感兴趣的区域(CV)判断图像内容,刷知乎的时候关注大 V 的发言了解舆论走向(Graph)。个人比较认同 Attention 是一种加权平均 的说法。关注这种行为表现在数学上,就是某些属性或实例拥有更高的权重。比如,某个单词的权重高,这个单词的属性会比其他单词的属性更有力地对句子的属性产生影响。当然,下面同学说的 Attention model 一种层次化的概率模型 也是有道理的。如果我们把加权平均中的权值之和变换为 1,也可以将这时的权值理解为关注的概率。说句题外话,杠精就是一种没有训练好的注意力模型,重点总是抓错,所以会对正样本作出错误的判断。基于 Graph Convolution 的 Attention要了解基于 Graph Convolution 的 Attention,就得先了解 Graph Convolution 是在做什么。在之前的回答中提到过,Graph Convolution 的核心思想是利用边的信息对节点进行聚合,从而生成新的节点表示。具体来说,给定一个图 ,其中 为节点集合, 为边的集合,节点的特征用 来表示。我们可以使用图卷积公式 生成新的节点的特征表示 ,其中 是节点 的邻居节点的特征 的加权平均。这里如果不懂请参考原回答。在(简化的)Graph Convolution 中,权重是直接用边上的 weight 替代的: 其中, 代表图 的邻接矩阵 中的第 行第 列的值,即 边的 weight。由于 Graph 的边是简单、固定的,因此 Convolution 加权平均过程中邻居节点的权值也是简单、固定的。有没有一种办法可以像人学得注意力一样,让模型学得邻居节点的权值呢。也就是: 其中, 是可学习的权重。可学习的 有两种设计思路,基于相似度的 Attention 和基于学习的 Attention。两种思路并没有明显的优劣差异,都可以尝试一下。利用相似度基于相似度的 Attention 需要一些先验信息,例如,余弦相似度衡量节点间的差异是有效的。 其中, 和 是训练参数, 是余弦相似度。废话几句其他的字母: 表示 节点是 节点的邻居, 代表 节点的属性特征。思路比较好理解:对节点特征做变换,得到 2. 求变换后的特征的余弦相似度,得到 3. 乘一个训练参数对余弦相似度进行缩放,得到 4. Softmax 归一化上述结果,得到注意力的概率 这就是 AGNN,个人感觉它对高维特征的处理还是挺有效的。论文:Attention-based Graph Neural Network for semi-supervised learning代码:dawnranger/pytorch-AGNN完全利用学习基于学习的 Attention 不需要任何先验知识,例如,上一方法中余弦相似度也可以由复杂的神经网络习得。 其中, 和 是训练参数, 代表组合向量 和向量 。废话几句其他的字母: 表示 节点是 节点的邻居, 代表 节点的属性特征。思路也比较好理解:对节点特征做变换,得到 2. 组合变换后的特征,使用训练参数变换,得到节点间的关系 3. LeakyReLU 增强非线性表达能力,得到 4. Softmax 归一化上述结果,最终得到注意力的概率 这就是 GAT,个人感觉它在一些 task 上表现惊人,但是结果不太稳定。论文:Graph Attention Networks代码:PetarV-/GATGraph 上的 Attention 为什么有效在大规模 Graph 中由于节点较多,复杂的背景噪声会对 GNN 性能产生不良影响。在 Attention 的作用下,GNN 模型会关注到 Graph 中最重要的节点/节点中最重要的信息从而提高信噪比。Attention 更巧妙地利用了 Graph 节点之间的相互联系,区分了联系的层级,能够增强任务中需要的有效信息。比如在玩狼人的时候预言家说你是平民,你的平民信息会得到大幅度增强,而普通人说你是平民,你的平民信息增强有限。

这里仅仅讨论视觉中的attentionattention的核心思想是根据全图的特征突出feature map中的某一核心部分,使得模型更加集中关注有效信息。所以前期的模型设计中更多采用一种类似于mask的方式,产生逐通道或逐像素的mask并与原feature map乘积,详见senet,cbam这种attention方式在全局池化的时候确实借鉴了全图的信息,但是仅用一种全图向量来增强原feature map本来就是受限的,于是参考transformer的kqv,non local横空出世,这种逐像素的attention扩大全局感受野的同时,权重的计算更加精细。但是由于要计算相关度矩阵,可能要消耗大量资源,所以后续也有一些轻量化方案,比如分块等等(待补充)时间来到2021,传统的卷积网络定式开始被打破,纯transformer开始进入cv领域,这类方法采用分patch的方式切分原图,并将其放入transformer中,也有无数的实例证明,在数据量极大的情况下,其性能能超越卷积。transformer在攻克了nlp的大量任务之后,再次为cv带来了新的曙光。

赞美个无私奉献夸耀个科技发达听一句积极向上要你的命吗?你就非给人找不痛快?你就非要大年三十送棺材,满月酒上做花圈?平常懒得写随笔,模考字数凑不够,名著没翻过几本,拿起手机就忘了娘,掂起笔就石乐志,结果一到考场上你诗情画意全都来了,恨不得洋洋洒洒疾书去,一步三叹不回头?你要真的是忧国忧民,文采斐然,就是能在八百字左右的篇幅里控诉出这黑暗的世界、不公的现实,让人读了悲从心起潸然泪下,老师看了齐声喝彩拍案叫绝,整个文学界为之震动……那你就不会再乎分数了,你都堪破红尘世俗,洞悉人心宇宙了,还纠结老师给不给你分干嘛?俗气!你追求的应该是"他年我若为青帝,报与桃花一处开"的豪迈或者"残躯徒留红尘里,此身不在五行中"的洒脱,不是吗?

作者:红护
链接:https://www.zhihu.com/question/272068457/answer/1302565494
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

作者:匿名用户
链接:https://www.zhihu.com/question/436115225/answer/1642525447
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

实话讲,大工官微的评论都不敢开,你就知道他发的那些东西有多少是做给人看的。核酸检测没错,平台下面人挤人扎堆,平台上面一米间隔。全部线上课的通知,家长和社会比老师学生都先知道,大多数的老师都是说,我们没接到通知,线下课照常,还有线下的大课和工训。非必要不聚集,食堂图书馆民勇商场里的人我们看一看?研究生核酸检测扎堆看一看?<img src="https://pic2.zhimg.com/50/v2-e074eec0e074141a367f86614e5dab8b_hd.jpg?source=1940ef5c"; data-rawwidth="922" data-rawheight="1127" data-size="normal" data-default-watermark-src="https://pic2.zhimg.com/50/v2-e074eec0e074141a367f86614e5dab8b_hd.jpg?source=1940ef5c"; class="origin_image zh-lightbox-thumb" width="922" data-original="https://pic3.zhimg.com/v2-e074eec0e074141a367f86614e5dab8b_r.jpg?source=1940ef5c";/><img src="https://pic4.zhimg.com/50/v2-8af24cba0df5d2f5d827b9bd9b3a9b56_hd.jpg?source=1940ef5c"; data-rawwidth="2000" data-rawheight="1417" data-size="normal" data-default-watermark-src="https://pic1.zhimg.com/50/v2-8af24cba0df5d2f5d827b9bd9b3a9b56_hd.jpg?source=1940ef5c"; class="origin_image zh-lightbox-thumb" width="2000" data-original="https://pic4.zhimg.com/v2-8af24cba0df5d2f5d827b9bd9b3a9b56_r.jpg?source=1940ef5c";/>一点通知没有,人心惶惶,还告诉我们上课照常考试照常,把做面子活的时间拿出来干点实事吧,不然真的打算关到大连都安全吗???真就学在大工,考试比天大,早日赶超清北。

发布
问题