Face anti-spoofing (FAS) is an essential mechanism for safeguarding the integrity of automated face recognition systems. Despite substantial advancements, the generalization of existing approaches to real-world applications remains challenging. This limitation can be attributed to the scarcity and lack of diversity in publicly available FAS datasets, which often leads to overfitting during training or saturation during testing. In terms of quantity, the number of spoof subjects is a critical determinant. Most datasets comprise fewer than 2,000 subjects. With regard to diversity, the majority of datasets consist of spoof samples collected in controlled environments using repetitive, mechanical processes. This data collection methodology results in homogenized samples and a dearth of scenario diversity. To address these shortcomings, we introduce the Wild Face Anti-Spoofing (WFAS) dataset, a large-scale, diverse FAS dataset collected in unconstrained settings. Our dataset encompasses 853,729 images of 321,751 spoof subjects and 529,571 images of 148,169 live subjects, representing a substantial increase in quantity. Moreover, our dataset incorporates spoof data obtained from the internet, spanning a wide array of scenarios and various commercial sensors, including 17 presentation attacks (PAs) that encompass both 2D and 3D forms. This novel data collection strategy markedly enhances FAS data diversity. Leveraging the WFAS dataset and Protocol 1 (Known-Type), we host the Wild Face Anti-Spoofing Challenge at the CVPR2023 workshop. Additionally, we meticulously evaluate representative methods using Protocol 1 and Protocol 2 (Unknown-Type). Through an in-depth examination of the challenge outcomes and benchmark baselines, we provide insightful analyses and propose potential avenues for future research. The dataset is released under Insightface.


翻译:人脸防欺诈(FAS)是保护自动化人脸识别系统完整性的重要机制。尽管取得了实质性的进展,但将现有方法推广到实际应用仍具有挑战性。这种限制可以归因于公开可用的FAS数据集的稀缺和缺乏多样性,这经常在训练期间导致过拟合或在测试期间导致饱和。就数量而言,欺诈主题的数量是一个关键的决定因素。大多数数据集包含少于2,000个主体。就多样性而言,大多数数据集由在受控环境中使用重复机械过程收集的欺诈样本组成。这种数据收集方法产生了同质化的样本,缺乏情境多样性。为了解决这些缺点,我们介绍了野生人脸防欺诈(WFAS)数据集,这是一个在不受限制的环境下收集的大型、多样的FAS数据集。我们的数据集包含321,751个欺诈主体的853,729张图像和148,169个真实主体的529,571张图像,代表数量上的大幅增加。此外,我们的数据集包含从互联网获取的欺诈数据,涵盖了各种情况和各种商业传感器,包括17个展示攻击(PAs),涵盖了2D和3D形式。这种新颖的数据收集策略显着增强了FAS数据的多样性。利用WFAS数据集和协议1(已知类型),我们在CVPR2023研讨会上举办了野生人脸反欺诈挑战赛。此外,我们使用协议1和协议2(未知类型)对代表性方法进行了精细评估。通过对挑战结果和基准基线进行深入研究,我们提供了深入的分析,并提出了未来研究的潜在途径。该数据集在Insightface下发布。

0
下载
关闭预览

相关内容

专知会员服务
14+阅读 · 2021年5月21日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
数据集|ALITA:用于自动驾驶的大规模增量数据集
极市平台
2+阅读 · 2022年6月27日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
【干货】20大推荐系统公共数据集分享
机器学习与推荐算法
56+阅读 · 2020年3月13日
LibRec 精选:推荐系统的常用数据集
LibRec智能推荐
17+阅读 · 2019年2月15日
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
【数据集】新的YELP数据集官方下载
机器学习研究会
16+阅读 · 2017年8月31日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
11+阅读 · 2018年7月8日
VIP会员
相关VIP内容
专知会员服务
14+阅读 · 2021年5月21日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
数据集|ALITA:用于自动驾驶的大规模增量数据集
极市平台
2+阅读 · 2022年6月27日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
【干货】20大推荐系统公共数据集分享
机器学习与推荐算法
56+阅读 · 2020年3月13日
LibRec 精选:推荐系统的常用数据集
LibRec智能推荐
17+阅读 · 2019年2月15日
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
【数据集】新的YELP数据集官方下载
机器学习研究会
16+阅读 · 2017年8月31日
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员