首页 要闻娱乐军事情感奇闻搞笑社会体育游戏百科

张航 张航、李沐等人提出ResNet最强改进版:性能提高3% 参数不增

2021-11-25 00:51
机器之心

机器的心脏报告

机器之心编辑部

性能明显提高,但参数数量没有明显增加。最新的分裂注意力网络继承了ResNet简洁和通用的特点。

2015 年,ResNet 横空出世,一举斩获 CVPR 2016 最佳论文奖,而且在 Imagenet 比赛的三个任务以及 COCO 比赛的检测和分割任务上都获得了第一名。四年过去,这一论文的被引量已超 40000 次,也陆续出现了很多变体。最近,来自亚马逊、加州大学戴维斯分校的张航、李沐、Alexander Smola 等研究者进一步改进了 ResNet,性能显着提升,但参数量并没有显着增加,超越了之前的 ResNeXt、SENet 等模型。

作为研究工作之一,亚马逊应用科学家张航表示:“分类网络通常是下游应用的核心,但最近很多分类问题并没有保持像ResNet那样的模块化设计,导致目标检测等主流应用仍然使用ResNet。因此,我们设计了一个新的ResNet变体ResNeSt,它可以直接应用于现有的主流模型,显著改善Mask R-CNN、Cascade R-CNN等模型的结果。」

论文地址:https://hangzhang.org/files/resnest.pdf

项目地址:https://github.com/zhanghang1989/ResNeSt

尽管图像分类模型不断进化,但大多数下游任务仍然使用ResNet变体作为其骨干网络,因为后者具有简单的模块化结构。

在这份论文中,研究者提出了一种模块化 Split-Attention 块,可以将注意力分散到若干特征图组中。按照 ResNet 的风格堆叠这些 Split-Attention 块,研究者得到了一个 ResNet 的新变体,称为 ResNeSt。它保留了整体的 ResNet 结构,可直接用于下游任务,但没有增加额外的计算量。

研究人员致力于简单的ResNet架构修改。具体来说,每个块将特征图分成几个组和更细粒度的子组或分割,其中每个组的特征表示由其分割表示的加权组合来确定。研究人员称结果单元为分裂-注意块,简单且模块化。

实验表明,ResNeSt 优于其他拥有相似模型复杂度的网络。ResNeSt-50 在 ImageNet 上实现了 81.13% 的 top 1 准确率,比此前最好的 ResNet 变体高 1% 以上。这一提升对于目标检测、实例分割、语义分割等下游任务来说很有意义。此外,将 ResNet-50 的骨干网络替换为 ResNeSt-50,MS-COCO 上 FasterRCNN 的 mAP 从 39.25% 提升至 42.33%,ADE20K 上 DeeplabV3 的 mIoU 从 42.1% 提升至 45.1%。

表1:如左图所示,ResNeSt在速度和精度的平衡方面达到了SOTA水平;右上图为ImageNet上ResNeSt的Top-1精度;右下图为迁移学习结果:MS-COCO上的目标检测mAP和ADE20K上的语义分割mIoU。

Split-Attention 网络

分离-注意区块

Split-Attention 块是一个由特征图组和 split attention 运算组成的计算单元,下图展示了 Split-Attention 块的整体思路:

要素地图组

与 ResNeXt 块一样,输入的特征图可以根据通道维数被分为几组,特征图组的数量由一个基数超参数 K 给出,得到的特征图组被称为基数组。研究者引入了一个新的底数超参数 R,该参数规定了基数组的 split 数量。

然后根据通道维度X = {X1,X2,...XG}。如果不同的变换{ f1,F2,...F_G}应用于每个单独的组,那么每个组的中间表示是Ui = Fi,I∞{ 1,2,...G}。

基数组中的 Split Attention

根据,每个基数组的组合表示可以通过对多个拆分元素进行求和和融合来获得。第k基数组的代表是:

,k ∈ 1, 2, ...K。带有嵌入 channel-wise 统计数据的全局上下文信息可以通过全局池化来获得。第 c 个分量的计算公式为:

利用信道软注意聚集表示v k ∈ r {h× w× c/k}的基群的加权融合。其中,每个特征图通道都是通过对几个分割使用加权组合获得的。c通道的计算公式如下:

ResNeSt 块

然后,根据通道维度级联基数组表示:v = concat {v 1,v 2,...v k}。与标准残差块一样,如果输入和输出要素图共享相同的形状,则通过使用快捷方式连接,Y = V +X x,生成Split-Attention块的最终输出Y。对于大跨距的块,将适当的变换T应用于快捷方式连接,以对齐输出形状:Y = V+T。T可以是跨距卷积,也可以是带池的组合卷积。

图 1 右为 Split-Attention 块的实例,组变换 F_i 是 1×1 卷积,然后是 3×3 卷积,注意力权重函数 G 使用两个带有 ReLU 激活函数的全连接层进行参数化。

与现有注意方法的关系

squeeze-and-attention是 SE-Net 论文中首先引入的,核心想法是应用全局上下文预测 channel-wise 的注意力因素。若 radix=1,Split-Attention 块可将 squeeze-and-attention 操作应用于每个基数组,而 SE-Net 则在整个块的顶部运行,与多个组无关。此前 SK-Net 等模型引入了两个网络分支之间的特征注意力,但这些操作没有针对训练效率及扩展到大规模神经网络进行优化。新的方法扩展了之前的特征图注意力相关研究,但其实现在计算上仍然是高效的。

图1显示了ResNeSt块与SE-Net和SK-Net块之间的总体比较。

拆分-注意的细节见图2。

实验

第一个实验研究了 ResNeSt 在 ImageNet 2012 数据集上的图像分类性能,结果如表 3 所示。ResNeSt50 达到了 81.13% 的 top-1 准确度。

表3:3:ImageNet上的图像分类结果。

表 5 和表 6 显示了 ResNeSt 在目标检测和实例分割任务中的表现。

表5:MS-COCO验证集上的目标检测性能结果。

在目标检测任务中,与使用标准 ResNet 的基线相比,ResNeSt 骨干网络能够将模型在 Faster-RCNN 和 CascadeRCNN 上的 mAP提高大约 3%。

表6:MS-COCO验证集上的实例分割结果。

如表 6 所示,ResNeSt 骨干网络具有更好的性能,对于 Mask-RCNN,ResNeSt50 的性能优于基线,在 box/mask 任务中的性能分别提高了 2.85%/2.09%。而 ResNeSt101 的提高更多,为 4.03%/3.14%。对于 Cascade-Mask-RCNN,切换到 ResNeSt50 或 ResNeSt101 所产生的性能提升分别为 3.13%/2.36% 或 3.51%/3.04%。

下表7显示了ResNeSt在ADE20K和Citscapes的语义分割任务中的性能。

表7:ade 20k和Citscapes在语义分割任务中的表现。

与之前的结果类似,使用 ResNeSt-50 骨干网络的 DeepLabv3 模型已经优于使用更深层 ResNet-101 骨干网络的 DeepLabv3 模型。具有 ResNeSt-101 骨干网络的 DeepLabV3 模型达到了 82.07% 的 pixAcc 和 46.91% 的 mIoU,据了解,这是为 ADE20K 提出的最佳单一模型。

在《CVPR 2020》第一期线上分享中,我们邀请到了北京大学智能科学系的陈汉庭分享主题“加法神经网络:深度学习中我们真的需要乘法吗?”,欢迎读者报名学习。

原标题:《张航、李沐等人提出ResNet最强改进版:性能提高3%,参数不增》

相关阅读
钟汉良谢易桦合影曝光 男神终于解开这个魔咒了
国民男神钟汉良的感情生活一直非常低调,从未在媒体面前谈起过自己的私生活,虽然网上盛传其老婆为谢易桦,绯闻也流传多年,但从未得到证实。不过这个传闻伴随着钟汉良谢易桦合影的曝光,坐实男神真的婚了,这是要不少粉丝哭瞎双眼的节奏啊。钟汉良喜欢低调,非常绅士,对待工作也很敬业。帅气、阳光、不老男神,是一位非常受欢迎的男明星。但是其感情生活一直是个谜,在很多场合被问及这个问题,钟汉良都不正面回答,此前他参加真15在看 07-07
天天向上汪涵义女周怡照片个人资料曝光 6个义女个个是美女
Y友乐园小编第一时间为大家收集整理的最新大陆明星天天向上汪涵义女周怡照片个人资料曝光 6个义女个个是美女,希望大家能够喜欢。看久了模特们在杂志广告上极具时尚气息,清新脱俗的摩登形象,想不想知道她们的古装扮相会不会更耐人寻味。最新消息,网络上曝光了天天向上汪涵义女周怡照片和个人资料,其它5个义女也曝光,6个义女个个貌美如花。大家有留意过天天向上里六位貌美如花的礼仪小姐吗?天天向上里的六位美女可是汪涵11在看 07-07
闫凤娇厕所门时隔多年再度遭扒 她的近况如何闫凤娇现在怎样了
闫凤娇因为参加《非诚勿扰》而被大家熟知,不过带给她的不是走红,而是不断爆出不雅照。后来又有厕所门事件,这些负面新闻一直围绕着她。近几年很少看到闫凤娇的身影,她已经不在娱乐圈发展了,那么她的近况如何?网友们都很好奇闫凤娇现在怎样了,关于她的近况网上几乎没有消息,不过有关注她微博的网友们应该有看到她现在好像很低调,几乎不更新微博。上一次更新微博好像是去旅游了,看来经历了艳照门之后的她并没有受到太大的影45在看 07-07
狄波拉电影 谢贤和狄波拉年轻照 谢贤和狄波拉
谢贤和狄波拉 谢贤(1936年8月9日—) 原名:谢家钰 籍贯:广东番禺人 教育程度:香港丽泽中学肄业(九龙尖沙咀广东道180号) 人称为「四哥」,香港电影及电视影员,因在《千王之王》里饰演有"南眼神"之称的千王罗四海,在戏中别人都叫他四哥,后来这部剧在香港很红,所以别人在现实生活中也都叫他四哥或者谢四,老一辈人则称其花名「阿肾」。狄波拉电影 谢贤和狄波拉年轻照 谢贤和狄波拉(取[贤]16在看 07-07
《母娘乱馆》动画片全集及高清大图
《母娘乱馆》画面邪恶,露骨,因此在很多网上都是被限制播出的。《母娘乱馆》是AliceSoft公司开发的一款游戏,2012年9月28日正式发行。该游戏设定了在远离山村的深山处静静地居住的神代家,主人公即将要成为这里的佣人,照顾在这个宅邸里居住的美丽的居民们。而他很幸运,来到神代家,遇到宛如亲生母亲般疼爱自己的夫人,作为姐姐而疼爱自己的长女,如同妹妹般仰慕自己的次女。而他必须得一边和她们加深羁绊,一边180在看 07-07

热文排行