Analyzing machine learning model performance stratified by patient and recording properties is becoming the accepted norm and often yields crucial insights about important model failure modes. Performing such analyses in a statistically rigorous manner is non-trivial, however. Appropriate performance metrics must be selected that allow for valid comparisons between groups of different sample sizes and base rates; metric uncertainty must be determined and multiple comparisons be corrected for, in order to assess whether any observed differences may be purely due to chance; and in the case of intersectional analyses, mechanisms must be implemented to find the most `interesting' subgroups within combinatorially many subgroup combinations. We here present a statistical toolbox that addresses these challenges and enables practitioners to easily yet rigorously assess their models for potential subgroup performance disparities. While broadly applicable, the toolbox is specifically designed for medical imaging applications. The analyses provided by the toolbox are illustrated in two case studies, one in skin lesion malignancy classification on the ISIC2020 dataset and one in chest X-ray-based disease classification on the MIMIC-CXR dataset.


翻译:基于患者和记录属性对机器学习模型性能进行分层分析正逐渐成为公认的标准做法,且常能揭示重要模型失效模式的关键洞见。然而,以统计严谨的方式执行此类分析并非易事:必须选择适当的性能指标,以确保不同样本量和基础率的组别间可比性;必须确定指标的不确定性并进行多重比较校正,以评估观测差异是否仅由偶然因素导致;在交叉分析中,还需建立机制从组合数量庞大的子群组合中识别最具"研究价值"的子群。本文提出一种统计工具箱,旨在应对这些挑战,使实践者能够便捷而严谨地评估模型在潜在子群间的性能差异。该工具箱具有广泛适用性,但特别针对医学影像应用设计。通过两项案例研究展示了工具箱的分析功能:一项基于ISIC2020数据集进行皮肤病变恶性分类,另一项基于MIMIC-CXR数据集进行胸部X光疾病分类。

0
下载
关闭预览

相关内容

LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员