Transformer, as a strong and flexible architecture for modelling long-range relations, has been widely explored in vision tasks. However, when used in video inpainting that requires fine-grained representation, existed method still suffers from yielding blurry edges in detail due to the hard patch splitting. Here we aim to tackle this problem by proposing FuseFormer, a Transformer model designed for video inpainting via fine-grained feature fusion based on novel Soft Split and Soft Composition operations. The soft split divides feature map into many patches with given overlapping interval. On the contrary, the soft composition operates by stitching different patches into a whole feature map where pixels in overlapping regions are summed up. These two modules are first used in tokenization before Transformer layers and de-tokenization after Transformer layers, for effective mapping between tokens and features. Therefore, sub-patch level information interaction is enabled for more effective feature propagation between neighboring patches, resulting in synthesizing vivid content for hole regions in videos. Moreover, in FuseFormer, we elaborately insert the soft composition and soft split into the feed-forward network, enabling the 1D linear layers to have the capability of modelling 2D structure. And, the sub-patch level feature fusion ability is further enhanced. In both quantitative and qualitative evaluations, our proposed FuseFormer surpasses state-of-the-art methods. We also conduct detailed analysis to examine its superiority.


翻译:作为建模长距离关系的强大和灵活的变异器结构,已在愿景任务中进行了广泛探索。然而,当用于制作需要精细代表的视频涂鸦时,由于硬片分割,现有方法仍因细细细的模糊边缘而受到影响。在这里,我们的目标是提出FuseFormer(一个基于新型软片分割和软片构成操作的微小拼图组合为视频涂色设计的变异器模型)来解决这一问题。软分裂使地图在多个相间间隔的补点中具有特征特征。相反,软结构通过将不同的补丁缝合成一个整体特征图,将重叠区域的像素进行总结。这两个模块首先用于变异器层之前的象征化和变异器层之后的脱位化。因此,亚相级信息互动能够更有效地在相邻区之间进行特征传播,从而将感光度内容合成给各洞区。此外,在FuseFormer(FuseFormer)中,我们精细地将软面构成和软质化的变异性分析能力插入了1号结构。我们提出的软体变变变变变的系统结构,将软的变式结构进一步插入了F-rode-rode-toforstal laft-stalalalalalalalalalalalalalalal laction laction ladaldal

0
下载
关闭预览

相关内容

专知会员服务
33+阅读 · 2021年5月12日
【ICLR2021】彩色化变换器,Colorization Transformer
专知会员服务
9+阅读 · 2021年2月9日
最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
30+阅读 · 2019年10月16日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
Arxiv
11+阅读 · 2021年10月26日
Arxiv
8+阅读 · 2021年2月1日
Arxiv
7+阅读 · 2018年4月24日
Arxiv
5+阅读 · 2018年3月30日
VIP会员
相关论文
Top
微信扫码咨询专知VIP会员