Recent advances in generative audio models have enabled high-fidelity environmental sound synthesis, raising serious concerns for audio security. The ESDD 2026 Challenge therefore addresses environmental sound deepfake detection under unseen generators (Track 1) and black-box low-resource detection (Track 2) conditions. We propose EnvSSLAM-FFN, which integrates a frozen SSLAM self-supervised encoder with a lightweight FFN back-end. To effectively capture spoofing artifacts under severe data imbalance, we fuse intermediate SSLAM representations from layers 4-9 and adopt a class-weighted training objective. Experimental results show that the proposed system consistently outperforms the official baselines on both tracks, achieving Test Equal Error Rates (EERs) of 1.20% and 1.05%, respectively.


翻译:近年来,生成式音频模型的进展使得高保真环境声音合成成为可能,这引发了人们对音频安全的严重担忧。因此,ESDD 2026挑战赛旨在解决在未见过的生成器(赛道1)和黑盒低资源检测(赛道2)条件下的环境声音深度伪造检测问题。我们提出了EnvSSLAM-FFN系统,该系统集成了一个冻结的SSLAM自监督编码器与一个轻量级的FFN后端。为了在严重数据不平衡条件下有效捕捉伪造痕迹,我们融合了来自第4至9层的中间SSLAM表征,并采用了类别加权的训练目标。实验结果表明,所提出的系统在两个赛道上均持续优于官方基线,分别取得了1.20%和1.05%的测试等错误率。

0
下载
关闭预览

相关内容

【NeurIPS2022】SparCL:边缘稀疏持续学习
专知会员服务
24+阅读 · 2022年9月22日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员