浅谈分辨率对模型影响以及训练方法

2022 年 1 月 19 日 极市平台


↑ 点击 蓝字  关注极市平台

作者 | FlyEgle
来源 | GiantPandaCV 
编辑 | 极市平台

极市导读

 

最近几个人在讨论模型训练的时候,提到了一个尺度对于模型的影响以及训练方法的收益,因此花了点时间,简单做了几组实验,整理一下结论。>>加入极市CV技术交流群,走在计算机视觉的最前沿

1 基础配置

本文的实验均是采用固定的配置结构以及同一套code实现,每次实验只改变分辨率等变量因素,保证实验合理性。

代码实现可以参考我的这个【git repo】—  https://github.com/FlyEgle/imageclassification

模型:ResNet50

数据集:ImageNet1k-128w

数据增强:RandomResizeCrop+RandomFlip

优化器:SGD+momentum

学习率

学习率衰减:cosineLr

混合精度: yes

2 实验

本次实验分成Pretrain和Finetune两大部分,实验过程和结果如下:

2.1 Pretrain

pretrain这里分成两组实验来做,第一组无任何pretrain,第二组用不同的方法load pretrain。

2.1.1 Training from Sketch

第一组实验,总计4次对比实验,分别实验在不同的分辨率的情况下R50的表现,训练周期均为90个epoch, warmup 5个epoch,训练配置保持一致,结果如下:

模型 分辨率 batchsize acc@top1
R50 224 1024 76.548%
R50 320 1024 77.698%
R50 416 1024 78.026%
R50 448 1024 77.826%

可以看到,随着分辨率的增加,模型精度随之上升,但是在448分辨率的情况下,训练的精度反而没有416高,说明不加载pretrain的情况下,想要按原始的训练配置来提升精度,在更高的分辨率下收益不会有太大提升。

2.1.2 Training from Progressive

第二组实验,总计3次对比实验,分别是更大的分辨率先load小分辨率的权重后在按相同配置进行训练,由于batchsize在1k,所以我没有舍弃warmup,3.2的配置和3.1的配置是保持一致的,结果如下:

模型 分辨率 batchsize acc@top1
R50 224->320 1024 78.052%
R50 320->416 1024 78.678%
R50 416->448 1024 78.542%

可以看到相比第一组实验,相同分辨率下的精度均有提升,而且在448的时候,没有显著的下降。

为了验证load精度稍微差一点的pretrain是否有提升,做了如下的实验,不同的分辨率训练,但是固定load的pretrain都是224的权重,结果如下:

模型 分辨率 batchsize acc@top1
R50 224->320 1024 78.052%
R50 224->416 1024 78.572%
R50 224->448 1024 78.722%

很惊奇的发现,在448的分辨率下,精度达到了最高。

2.2 Finetune

这里设计了两大组实验,分别考虑了学习率缩放和冻结block。

2.2.1 Finetune with LR

前面的实验因为都是做pretrain和from sketch,所以固定了所有的配置,包括LR。这里对LR缩放做实验,探究finetune对模型精度的影响。缩放原始LR为0.1和0.01倍,去掉warmup,只训练40个epoch,结果如下:

模型 分辨率 batchsize LR acc@top1
R50 224->448 1024 LR*0.1 78.924%
R50 224->448 1024 LR*0.01 78.736%

可以看到,不固定任何参数的时候,缩放LR,finetune相比pretrain,会有较大幅度的提升。

2.2.2 Finetune with Freeze layer

上一组实验得到了LR*0.1的时候效果最好,但是没有冻结模型的任何参数,这组实验做一下上面实验的补充,R50总计有4个layer,以及conv stem和FC。FC是不会被冻结的,不然训练个寂寞了,所以调整的就是不同的layer的冻结,结果如下:

模型 分辨率 batchsize LR layer acc@top1
R50 224->448 1024 LR*0.1 conv stem+layer1 78.796%
R50 224->448 1024 LR*0.01 conv stem+layer1-2 78.822%
R50 224->448 1024 LR*0.01 conv stem+layer1-3 78.05%
R50 224->448 1024 LR*0.01 conv stem+layer1-4 74.432%

可以看到,当冻结前两个layer的时候,模型的性能还ok,但是当开始冻结第三个layer的时候有明显的下降,全部冻结下降的更明显。

3 结论

  • 如果同域数据,不希望提升模型的参数量的情况下,想要提升精度,可以考虑pretrain的方法。Finetune的方法虽然精度可以上来,但是bad case有时候会跟着权重继承过来。

  • 数据量多,时间不够的情况下可以适当freeze前面几层layer进行finetune,浅层特征一般是共性特征,影响精度的还是底层的抽象特征。

  • imagnet的数据集是属于目标性的,就是物体很明确的在图像中表示出来,如果你的任务是理解性质的或者需要隐表征的,那么最好从头训练(经验之谈)

以上实验结论仅供参考,不能保证不同数据集结论一致,欢迎交流讨论。

如果觉得有用,就请分享到朋友圈吧!

△点击卡片关注极市平台,获取 最新CV干货

公众号后台回复“transformer”获取最新Transformer综述论文下载~


极市干货
课程/比赛: 珠港澳人工智能算法大赛 保姆级零基础人工智能教程
算法trick 目标检测比赛中的tricks集锦 从39个kaggle竞赛中总结出来的图像分割的Tips和Tricks
技术综述: 一文弄懂各种loss function 工业图像异常检测最新研究总结(2019-2020)


CV技术社群邀请函 #

△长按添加极市小助手
添加极市小助手微信(ID : cvmart4)

备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳)


即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群


每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~


觉得有用麻烦给个在看啦~   


登录查看更多
0

相关内容

【博士论文】基于冲量的加速优化算法
专知会员服务
24+阅读 · 2021年11月29日
专知会员服务
18+阅读 · 2021年9月16日
专知会员服务
51+阅读 · 2021年6月17日
专知会员服务
36+阅读 · 2021年6月6日
专知会员服务
15+阅读 · 2020年7月27日
【ICML2020】多视角对比图表示学习,Contrastive Multi-View GRL
专知会员服务
77+阅读 · 2020年6月11日
专知会员服务
44+阅读 · 2020年3月6日
深度解析Batch Normalization(批归一化)
PaperWeekly
1+阅读 · 2022年4月13日
图像分类训练技巧之数据增强方法总结
极市平台
1+阅读 · 2022年2月6日
工程实践 | CUDA优化之LayerNorm性能优化实践
极市平台
0+阅读 · 2022年1月10日
神经网络加上注意力机制,为什么精度反而下降?
正则化技巧:标签平滑以及在 PyTorch 中的实现
极市平台
2+阅读 · 2021年12月10日
混合精度训练原理总结
极市平台
1+阅读 · 2021年12月7日
如何理解模型的过拟合与欠拟合,以及如何解决?
七月在线实验室
12+阅读 · 2019年4月23日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
27+阅读 · 2022年3月28日
Arxiv
14+阅读 · 2021年3月10日
Arxiv
15+阅读 · 2018年2月4日
VIP会员
相关VIP内容
【博士论文】基于冲量的加速优化算法
专知会员服务
24+阅读 · 2021年11月29日
专知会员服务
18+阅读 · 2021年9月16日
专知会员服务
51+阅读 · 2021年6月17日
专知会员服务
36+阅读 · 2021年6月6日
专知会员服务
15+阅读 · 2020年7月27日
【ICML2020】多视角对比图表示学习,Contrastive Multi-View GRL
专知会员服务
77+阅读 · 2020年6月11日
专知会员服务
44+阅读 · 2020年3月6日
相关资讯
深度解析Batch Normalization(批归一化)
PaperWeekly
1+阅读 · 2022年4月13日
图像分类训练技巧之数据增强方法总结
极市平台
1+阅读 · 2022年2月6日
工程实践 | CUDA优化之LayerNorm性能优化实践
极市平台
0+阅读 · 2022年1月10日
神经网络加上注意力机制,为什么精度反而下降?
正则化技巧:标签平滑以及在 PyTorch 中的实现
极市平台
2+阅读 · 2021年12月10日
混合精度训练原理总结
极市平台
1+阅读 · 2021年12月7日
如何理解模型的过拟合与欠拟合,以及如何解决?
七月在线实验室
12+阅读 · 2019年4月23日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员