成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
0
ECCV2022 Oral| 无需前置条件的自动着色算法
2022 年 7 月 16 日
极市平台
↑ 点击
蓝字
关注极市平台
作者丨白乌鸦@知乎 (已授权)
来源丨https://zhuanlan.zhihu.com/p/540726540
编辑丨极市平台
极市导读
本文将介绍一个无需前置条件即可自动着色的算法,实现了目前最好的着色效果,性能在所有指标上打败了标准的CNN colorization方法以及Google在ICLR2021提出的方法。
>>
加入极市CV技术交流群,走在计算机视觉的最前沿
论文过段时间会挂到实验室主页上,代码很快也会开源。
实验室主页:
https://ci.idm.pku.edu.cn/
模型介绍
我们造了一个自动着色的Transformer模型,以color tokens作为辅助,实现了目前最好的着色效果。这里说的color tokens来自于经典工作《colorful image colorization》(CIC)中量化ab color space的思路,我们将每个格子都当做一个token,借助position embedding得到格子之间的位置关系,从而获得color token的颜色相对关系(离得远的色差大,否则小),从而设计一系列模块来引导color token监督着色。
这里可视化一下我们的Pipeline,可以看到基本上不需要对transformer结构做太多魔改,只需要依靠我们设计的Luminance-selecting module, Color Attention和Color query等模块,依靠ab color space中颜色分布的先验知识,就可以实现好的着色性能。
我们的模型不需要任何前置条件(例如目标检测主要着色物体,或者先用inversion GAN生成个参考图像),就能生成正确颜色语义和丰富饱和度的图像。因为没有前置条件的需求,所以使用场景更广(例如不受限于检测器可以检测的目标的类别,以及GAN可以生成的图像的类别)。
实验结果
下面是我们的分数和user study,我们对比了标准的CNN colorization方法,以及Google在ICLR2021提出的第一个colorization transformer,最终性能在所有指标上都打过了他们;我们额外比较了一些热门的图像修复算法,但显然专门为colorization设计的算法性能更优;我们还比较了著名的预训练模型MAE,并把colorization当做他的一个下游任务来finetune,但他在这个任务上看起来也不是很聪明的样子。
下面展示一些修复老照片的结果
然后是一些灰白图像上色的结果
公众号后台回复“
项目实践
”获取50+CV项目实践机会~
△点击卡片关注极市平台,获取
最新CV干货
极市干货
最新数据集资源
:
医学图像开源数据集汇总(二)
技术解读
:
一文打尽NMS技术的种种
|
这是一篇对YOLOv7的详细解读和剖析
极视角动态:
青岛日报专访|极视角陈振杰:创业的每一个决定都要经得起逻辑推演
|
启动报名|2022GCVC全球人工智能视觉产业与技术大会,7月22日青岛见!
#
极市原创作者激励计划
#
极市平台深耕CV开发者领域近5年,拥有一大批优质CV开发者受众,覆盖微信、知乎、B站、微博等多个渠道。通过极市平台,您的文章的观点和看法能分享至更多CV开发者,既能体现文章的价值,又能让文章在视觉圈内得到更大程度上的推广。
对于优质内容开发者,极市可推荐至国内优秀出版社合作出书,同时为开发者引荐行业大牛,组织个人分享交流会,推荐名企就业机会,打造个人品牌 IP。
投稿须知:
1.
作者保证投稿作品为自己的
原创作品。
2.
极市平台尊重原作者署名权,并支付相应稿费。文章发布后,版权仍属于原作者。
3.原作者可以将文章发在其他平台的个人账号,但需要在文章顶部标明首发于极市平台
投稿方式:
添加小编微信Fengcall(微信号:fengcall19),备注:
姓名-投稿
△长按添加极市平台小编
“
点击阅读原文进入CV社区
收获更多技术干货
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
Color
关注
4
CVPR 2022 Oral | 南京大学AdaMixer:基于快速收敛查询的目标检测器
专知会员服务
11+阅读 · 2022年4月10日
ICLR 2022 | BEIT论文解读:将MLM无监督预训练应用到CV领域
专知会员服务
33+阅读 · 2022年3月24日
【ICLR2022】序列生成的目标侧数据增强
专知会员服务
23+阅读 · 2022年2月14日
[CVPR 2021] 基于傅里叶轮廓嵌入的任意形状文本检测(有源码)
专知会员服务
18+阅读 · 2021年5月8日
新杀器来了!Facebook AI提出DETR:用Transformers来进行端到端的目标检测
专知会员服务
51+阅读 · 2020年5月28日
ECCV 2022 Oral | 无需微调即可泛化!RegAD:少样本异常检测新框架
极市平台
3+阅读 · 2022年8月3日
CVPR 2022 | 元学习在图像回归任务的表现
PaperWeekly
1+阅读 · 2022年6月11日
ICLR 2022 | 无需训练!As-ViT:自动扩展视觉Transformer
CVer
0+阅读 · 2022年4月15日
CVPR 2022 | 南大提出:Structured Sparse R-CNN:单阶段端到端场景图生成器
CVer
0+阅读 · 2022年4月13日
两张照片就能转视频!Google提出FLIM帧插值模型
新智元
1+阅读 · 2022年3月11日
基于相似性的图像特征逆向学习算法与应用
国家自然科学基金
0+阅读 · 2013年12月31日
基于图理论的图像结构量化描述及应用研究
国家自然科学基金
0+阅读 · 2013年12月31日
弱监督条件下RGB-D时序图像的语义分割模型与迁移学习算法
国家自然科学基金
0+阅读 · 2012年12月31日
声纹识别中合成语音的鲁棒性研究
国家自然科学基金
1+阅读 · 2009年12月31日
基于核、正则化与多目标优化技术的多标签分类算法及其应用研究
国家自然科学基金
1+阅读 · 2008年12月31日
Smoothed Contrastive Learning for Unsupervised Sentence Embedding
Arxiv
0+阅读 · 2022年9月12日
Unsupervised Learning of 3D Scene Flow with 3D Odometry Assistance
Arxiv
0+阅读 · 2022年9月11日
An Improved Lightweight YOLOv5 Model Based on Attention Mechanism for Face Mask Detection
Arxiv
0+阅读 · 2022年9月11日
Invariant Information Bottleneck for Domain Generalization
Arxiv
15+阅读 · 2021年12月10日
Commonsense Knowledge Base Completion with Structural and Semantic Context
Arxiv
20+阅读 · 2019年12月19日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
Color
ECCV
CNN
词元分析器
GaN
算法
相关VIP内容
CVPR 2022 Oral | 南京大学AdaMixer:基于快速收敛查询的目标检测器
专知会员服务
11+阅读 · 2022年4月10日
ICLR 2022 | BEIT论文解读:将MLM无监督预训练应用到CV领域
专知会员服务
33+阅读 · 2022年3月24日
【ICLR2022】序列生成的目标侧数据增强
专知会员服务
23+阅读 · 2022年2月14日
[CVPR 2021] 基于傅里叶轮廓嵌入的任意形状文本检测(有源码)
专知会员服务
18+阅读 · 2021年5月8日
新杀器来了!Facebook AI提出DETR:用Transformers来进行端到端的目标检测
专知会员服务
51+阅读 · 2020年5月28日
热门VIP内容
开通专知VIP会员 享更多权益服务
星链与未来战争
《黑蜂(Black Hummingbird)微型无人机》
《全球地缘政治环境中的反无人机系统互操作性》252页
《美国:为自动驾驶汽车铺平道路——未来出行已来》最新43页报告
相关资讯
ECCV 2022 Oral | 无需微调即可泛化!RegAD:少样本异常检测新框架
极市平台
3+阅读 · 2022年8月3日
CVPR 2022 | 元学习在图像回归任务的表现
PaperWeekly
1+阅读 · 2022年6月11日
ICLR 2022 | 无需训练!As-ViT:自动扩展视觉Transformer
CVer
0+阅读 · 2022年4月15日
CVPR 2022 | 南大提出:Structured Sparse R-CNN:单阶段端到端场景图生成器
CVer
0+阅读 · 2022年4月13日
两张照片就能转视频!Google提出FLIM帧插值模型
新智元
1+阅读 · 2022年3月11日
相关基金
基于相似性的图像特征逆向学习算法与应用
国家自然科学基金
0+阅读 · 2013年12月31日
基于图理论的图像结构量化描述及应用研究
国家自然科学基金
0+阅读 · 2013年12月31日
弱监督条件下RGB-D时序图像的语义分割模型与迁移学习算法
国家自然科学基金
0+阅读 · 2012年12月31日
声纹识别中合成语音的鲁棒性研究
国家自然科学基金
1+阅读 · 2009年12月31日
基于核、正则化与多目标优化技术的多标签分类算法及其应用研究
国家自然科学基金
1+阅读 · 2008年12月31日
相关论文
Smoothed Contrastive Learning for Unsupervised Sentence Embedding
Arxiv
0+阅读 · 2022年9月12日
Unsupervised Learning of 3D Scene Flow with 3D Odometry Assistance
Arxiv
0+阅读 · 2022年9月11日
An Improved Lightweight YOLOv5 Model Based on Attention Mechanism for Face Mask Detection
Arxiv
0+阅读 · 2022年9月11日
Invariant Information Bottleneck for Domain Generalization
Arxiv
15+阅读 · 2021年12月10日
Commonsense Knowledge Base Completion with Structural and Semantic Context
Arxiv
20+阅读 · 2019年12月19日
大家都在搜
Palantir
反恐
大型语言模型
多域作战
未来战争
分布式事务
篮球制作
蓝牙安全攻防
transE
【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络(DCRNN)
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top