利用深度学习辅助皮肤病诊断

2019 年 11 月 5 日 谷歌开发者

文 / Yuan Liu, SE & Peggy Bui, PM, Google Health

据估计，全球有 19 亿人口时刻在遭受皮肤病的困扰，由于缺少皮肤科医生，许多患者只能由全科医生诊治。单就美国而言，高达 37% 的就诊患者患有多种皮肤病，而其中半数以上不是由皮肤专科医生进行诊治的。研究表明，在诊断皮肤状况时，全科医生和皮肤科医生在准确率方面存在显著差异，全科医生的诊断准确率在 24% 至 70% 之间，而皮肤科医生的准确率为 77% 至 96%。而这可能会导致错误转诊、护理延误以及诊断和治疗错误等问题。

现在，非皮肤科医生可通过参考书、在线资源以及咨询同事等方式提高诊断准确率。为此，研究人员还专门开发了各种机器学习工具。过去研究的重点是皮肤癌的早期筛查，尤其是确定病变是否为恶性，或者病变是否为黑色素瘤。然而，多达 90% 的皮肤问题都不是恶性疾病，解决这些常见的问题对改善全球皮肤病状况同样重要。

如“ 用于皮肤病鉴别诊断的深度学习系统 (A Deep Learning System for Differential Diagnosis of Skin Diseases)”中所述，我们开发出一种 深度学习系统 (deep learning system, DLS)，用于处理基本护理中最常见的皮肤病。我们的结果表明，基于相同的患者病例信息（图像和元数据），DLS 可准确诊断出 26 种皮肤病，堪比美国职业认定的皮肤科医生。显然，此研究展现出了 DLS 帮助未经额外专业培训的全科医生提高准确诊断皮肤病能力的潜力。

DLS 设计

临床医生经常面临模棱两可的病例，并无法准确确定病因。例如，患者的皮疹是淤积性皮炎还是蜂窝组织炎，或者可能两者兼有？临床医生并非仅给出一个诊断结果，而是给出鉴别诊断表，列出所有可能的皮肤病。鉴别诊断表提供了疾病的大致范围，以便进行系统的检查（实验室检测、影像扫描、一般性检查流程、咨询）和治疗，直到最终确诊。同样地，深度学习系统 (DLS) 能够模仿临床医生的思维方式，根据皮肤症状排列出可能的皮肤病，从而对患者进行快速分诊、诊断和治疗。

为实现此预测，DLS 会处理各种输入数据，包括一张或多张皮肤异常的临床图像以及多达 45 类元数据（病历中的自述内容，例如年龄、性别、症状等）。针对每种病例，该系统使用 Inception-v4 神经网络架构，结合经过特征转换的元数据（用于分类层）处理多张图像。研究期间，我们利用 17,777 个身份不明的病例（主要来自初级医疗诊所提交至远程皮肤病服务机构）开发并评估 DLS。训练数据取自 2010 年至 2017 年，而评估数据则是来自 2017 年至 2018 年。在模型训练期间，DLS 利用了 40 多名皮肤科医生提供的 50000 多个鉴别诊断。

为评估 DLS 的准确率，我们将其与严格的参考标准（即获美国职业认证的皮肤科医生的诊断）进行比较。总体而言，皮肤科医生为 3756 个病例（“验证集 A”）提供了鉴别诊断，这些诊断均通过投票过程进行汇总，目的是获得真实值标签。相较于皮肤科医生给出的鉴别诊断，DLS 辨别列出的皮肤病分别获得 71% 的 Top-1 准确率和 93 % 的 Top-3 准确率。

DLS 以及如何通过三位美国职业认证的皮肤科医生针对验证集中各病例的投票得出参考标准（真实值）示意图

与专业评估的比较

在本研究中，我们还针对验证数据集 A 的子集（“验证集 B”），分别比较了 DLS 和三类临床医生（数据皮肤科医生、初级护理医生 (PCP) 和执业护士 (NP)）的准确率。这些医护人员均经过随机选择，代表了不同经验、培训和诊断准确率。

由于临床医生提供的典型鉴别诊断表最多仅包含三项诊断，因此我们只将 DLS 排列的前三项预测与临床医生的诊断结果进行比较。DLS 在验证数据集 B 上实现了 90% 的 Top-3 诊断准确率。相较于每组 6 位医生的准确率，此数据堪比皮肤科医生的 75%，并远远高于初级护理医生 (PCP) 和执业护士 (NP) 的 60% 与 55%。较高的 Top-3 准确率表明，DLS 可协助临床医生（包括皮肤科医生）考虑原本不在其鉴别诊断表中的可能情况，从而提高诊断准确率并改善病情管理。

DLS Top-1 鉴别诊断准确率远远高于 PCP 和 NP，并且堪比皮肤科医生的准确率。DLS 的 Top-3 准确率提升显著，这说明在大多数病例中，DLS 鉴别诊断表中包含了正确的答案

评估人口统计表现

皮肤类型与皮肤病学息息相关，其中皮肤本身的视诊评估对诊断至关重要。为评估对皮肤类型的潜在偏见，我们基于 Fitzpatrick 皮肤类型测试了 DLS 的表现，此量表包含 I 型（“苍白色，总是灼伤，从不晒黑”）到 VI 型（“深棕色，从不灼伤”）六种皮肤类型。

为确保通过充足案例得出令人信服的结论，我们主要选取至少代表 5% 数据的皮肤类型 — Fitzpatrick 皮肤类型 II 至 IV。针对这些类别，DLS 的准确率较为相似（Top-1 准确率的范围为 69-72%，Top-3 准确率的范围为 91-94%）。令人欣喜的是，DLS 在患者亚组中仍保持诊断的准确率，而根据其他自述的人口统计信息（年龄、性别和种族/民族），该群体在数据集中占据较大比例（至少 5%）。在进一步的定性分析中，我们通过显著性（解释）技术评估得出结论：DLS 确实是在“关注”异常状况，而非肤色。

左图：脱发病例示例，非专科医生很难进行确诊，因而无法确定相应疗法。右图：DLS 将图中突出显示的绿色区域识别为重要区域，并用于进行预测。中间：组合后的图，表明 DLS 主要关注脱发区域，而非前额皮肤颜色等可能表示存在偏见的内容

合并多种数据类型

我们还研究了不同类型的输入数据对 DLS 性能的影响。

就像从多个角度拍摄图像有助于远程皮肤科医生更准确地诊断皮肤状况，DLS 的准确率也会随着图像数的增加而有所提高。如果缺少元数据（例如病历），模型便无法有出色的表现。

缺少病历的情况下可能会出现这种准确率差异，仅使用图像训练 DLS 可以缓解。但数据表明，如果能提供一些皮肤状况问答的话，便能大幅提高 DLS 的准确率。

当输入更多图像（蓝线）或元数据（对比蓝线与红线）时，DLS 的准确率会上升。当输入中缺少元数据时，如果单独使用图像训练 DLS，则当前 DLS（绿线）的准确率只会出现小幅提升

未来工作和应用

尽管这些研究结果颇具前景，但仍有许多工作有待完成。首先，据实际应用的反馈：我们的数据集中，相对缺少皮肤癌（如黑色素瘤）的数据，这对训练出准确率高的癌症检测系统有很大影响。同时，数据集中标记为皮肤癌的数据未经活检证实，在这一点上限制了真实值的质量。其次，虽然我们的数据集虽然包含了 Fitzpatrick 的不同皮肤类型，但个别类型的样本较少，对后续的训练或分析没有太大意义。最后，研究所用的验证数据集均由同一家远程皮肤病学机构提供。虽然此数据集涵盖了两个州的 17 个初级护理机构，但在更多区域对病例进行额外验证也至关重要。

我们相信，通过在训练集和验证集中加入更多由活检证实的皮肤癌病例，更多的 Fitzpatrick 皮肤类型与其他临床中心的病例，上述问题可以得到解决。

成功利用深度学习辅助皮肤病的鉴别诊断无疑是一剂强心针，让我们更坚信此类工具对临床医生的潜在价值。例如，这种 DLS 可协助病例分诊以安排确认临床护理的优先级，协助非皮肤科医生提升皮肤病治疗准确率，进而提升接诊人数。尽管前方任重道远，但一想到未来要致力于研究此类系统，为临床医生打造更多实用功能，我们便充满无限期待。如需咨询研究合作，请通过 dermatology-research@google.com 联系我们。

致谢

此项研究是多学科团队的努力成果，其中包括软件工程师、研究人员、临床医生和跨职能贡献者。此项目的主要贡献者包括 Yuan Liu、Ayush Jain、Clara Eng、David H. Way、Kang Lee、Peggy Bui、Kimberly Kanada、Guilherme de Oliveira Marinho、Jessica Gallegos、Sara Gabriele、Vishakha Gupta、Nalini Singh、Vivek Natarajan、Rainer Hofmann-Wellenhof、Greg S. Corrado、Lily H. Peng、Dale R. Webster、Dennis Ai、Susan Huang、Yun Liu、R. Carter Dunn 和 David Coz。作者想要感谢 William Chen、Jessica Yoshimi、Xiang Ji 和 Quang Duong 在数据收集方面提供的软件基础架构支持。此外，还要感谢 Genevieve Foti、Ken Su、T Saensuksopa、Devon Wang、Yi Gao 和 Linh Tran。最后，感谢为本次研究查阅各种病例的皮肤科医生、初级护理医生、执业护士，以及帮忙建立皮肤状况映射的 Sabina Bis 和对原稿提供反馈的 Amy Paller，没有你们的参与就没有本次研究成果的诞生。

如果您想详细了解 本文提及 的相关内容，请参阅以下文档。这些文档深入探讨了这篇文章中提及的许多主题：

37% 的患者受多种皮肤病困扰
https://www.ncbi.nlm.nih.gov/pubmed/11464187
半数以上由非皮肤科医生诊治
https://jamanetwork.com/journals/jamainternalmedicine/fullarticle/1108675
诊断准确率：皮肤科医生与全科医生
https://www.ncbi.nlm.nih.gov/pubmed/16197420
https://www.ncbi.nlm.nih.gov/pubmed/10101989
病变是否为恶性
https://www.nature.com/articles/nature21056
病变是否为黑色素瘤
https://academic.oup.com/annonc/article/29/8/1836/5004443
常见皮肤病 - 90%的皮肤问题非恶性疾病
https://www.ncbi.nlm.nih.gov/pubmed/25566569
用于皮肤病鉴别诊断的深度学习系统
https://arxiv.org/abs/1909.05382
Inception-v4 神经网络架构
https://arxiv.org/abs/1602.07261
Fitzpatrick 皮肤类型
https://en.wikipedia.org/wiki/Fitzpatrick_scale