Respiratory sound classification is hindered by the limited size, high noise levels, and severe class imbalance of benchmark datasets like ICBHI 2017. While Transformer-based models offer powerful feature extraction capabilities, they are prone to overfitting and often converge to sharp minima in the loss landscape when trained on such constrained medical data. To address this, we introduce a framework that enhances the Audio Spectrogram Transformer (AST) using Sharpness-Aware Minimization (SAM). Instead of merely minimizing the training loss, our approach optimizes the geometry of the loss surface, guiding the model toward flatter minima that generalize better to unseen patients. We also implement a weighted sampling strategy to handle class imbalance effectively. Our method achieves a state-of-the-art score of 68.10% on the ICBHI 2017 dataset, outperforming existing CNN and hybrid baselines. More importantly, it reaches a sensitivity of 68.31%, a crucial improvement for reliable clinical screening. Further analysis using t-SNE and attention maps confirms that the model learns robust, discriminative features rather than memorizing background noise.


翻译:呼吸音分类任务受到ICBHI 2017等基准数据集规模有限、噪声水平高以及类别严重不平衡的制约。尽管基于Transformer的模型具备强大的特征提取能力,但在这种受限的医疗数据上训练时,它们容易过拟合,并常常收敛到损失函数曲面的尖锐极小值点。为解决这一问题,我们提出了一种利用锐度感知最小化(SAM)增强音频谱图Transformer(AST)的框架。我们的方法不仅最小化训练损失,还优化损失曲面的几何形态,引导模型朝向更平坦的极小值点收敛,从而对未见患者具有更好的泛化能力。我们还实施了加权采样策略以有效处理类别不平衡问题。我们的方法在ICBHI 2017数据集上取得了68.10%的最新最优分数,超越了现有的CNN及混合基线模型。更重要的是,其灵敏度达到了68.31%,这对于可靠的临床筛查至关重要。通过t-SNE和注意力图谱的进一步分析证实,该模型学习到的是鲁棒且具有判别性的特征,而非记忆背景噪声。

0
下载
关闭预览

相关内容

国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员