【Google AI】深度学习辅助皮肤病诊断- 专知

【Google AI】深度学习辅助皮肤病诊断

【导读】全世界约有19亿人患过皮肤病。然而，由于皮肤病医生的短缺，很多皮肤病患者只能找全科医生看诊。研究表明全科医生和皮肤科医生之间的皮肤状况诊断准确性存在显着差异，全科医生的准确率在24％至70％之间，而皮肤科医生的准确率为77％至96％。这可能导致次优转诊，延误护理以及诊断和治疗错误。为此，谷歌开发了深度学习系统，以帮助准确诊断简单的皮肤病。

非皮肤科医生提高诊断准确性的现有策略包括使用参考教科书，在线资源以及与同事协商。研究人员还开发了机器学习工具，旨在帮助提高诊断准确性。以前的研究主要集中在皮肤癌的早期筛查，特别是病变是恶性还是良性，或病变是否为黑色素瘤。然而，超过90％的皮肤问题并非恶性，解决这些更常见的疾病对减轻全球皮肤病负担也很重要。

在“用于鉴别诊断皮肤病的深度学习系统”中，我们开发了一种深度学习系统（DLS），以解决初级保健中最常见的皮肤状况。我们的研究结果表明，当提供有关患者病例（图像和元数据）的相同信息时，DLS可以在26种皮肤状况下获得较为准确的判断，与美国董事会认证的皮肤科医生相同。本研究强调了DLS有可能增强没有额外专业训练的全科医生准确诊断皮肤状况的能力。

DLS设计

临床医生经常面临模棱两可的案例，没有明确的答案。例如，这是皮疹淤滞性皮炎还是蜂窝织炎，或者两者叠加？临床医生不是仅仅给出一个诊断，而是给出可能的疾病的列表，然后系统地应用额外的检查（实验室检查，成像，程序，咨询）和治疗，直到确诊为止。因此，深度学习系统（DLS）密切模仿临床医生的想法，产生皮肤病的可能皮肤状况的排序列表，促进患者分类，诊断和治疗。

DLS的输入包括皮肤异常的一个或多个临床图像以及多达45种类型的元数据（医学史的自我报告的成分，例如年龄，性别，症状等）。对于每种情况，使用Inception-v4神经网络架构处理多个图像并与特征转换的元数据组合，以用于分类层。我们用17777种疾病开发并评估DLS。2010 - 2017年的数据用于训练，2017 - 2018年的数据用于评估。在模型训练期间，DLS利用超过40名皮肤科医生提供的50,000多种鉴别诊断。

为了评估DLS的准确性，我们将其与基于美国三名经过董事会认证的皮肤科医生诊断的严格参考标准进行了比较。总的来说，皮肤科医生为3,756例病例（“验证集A”）提供了鉴别诊断，这些诊断通过投票过程进行汇总，以得出基本事实标签。将DLS的皮肤状况排序列表与皮肤科医生推导的鉴别诊断进行比较，分别达到71％和93％的前1和前3精度。

与专业评估的比较

在本研究中，我们还将验证A数据集子集（“验证集B”）中DLS的准确性与三类临床医生的准确性进行了比较：皮肤科医生，初级保健医生（PCP）和执业护士（NPs）。由于临床医生提供的典型鉴别诊断仅包含三个诊断，我们仅将DLS的前三个预测与临床医生进行比较。DLS在验证B数据集上达到了90％的前三诊断准确度，与皮肤科医生相当，远远高于初级保健医生（PCP）和执业护士（NPs）-75％，60％和55％，分别为每组6名临床医生。这种高前3的准确性表明，DLS可能有助于促使临床医生（包括皮肤科医生）考虑原本不在其鉴别诊断中的可能性，从而提高诊断准确性和病情管理。

评估人口统计表现

皮肤病与皮肤类型高度相关，其中皮肤本身的视觉评估对于诊断是至关重要的。为了评估对皮肤类型的潜在偏见，我们检查了基于Fitzpatrick皮肤类型的DLS性能，该皮肤类型的范围从I型（“浅白色，总是烧伤，从不晒黑”）到VI型（“最黑的棕色，从不烧伤” “）。为了确保获得令人信服的结论的足够数量的案例，我们专注于代表至少5％数据的皮肤类型 - Fitzpatrick皮肤类型II至IV。在这些类别中，DLS的准确度相似，前1精度范围为69-72％，前3精度为91-94％。令人鼓舞的是，DLS在患者亚组中也保持准确，根据其他自我报告的人口统计信息：年龄，性别和种族/民族，数据集中存在大量（至少5％）。作为进一步的定性分析，我们通过显着性（解释）技术评估了DLS令人安心地“关注”异常而不是肤色。

合并多种数据类型

我们还研究了不同类型的输入数据对DLS性能的影响。就像从多个角度拍摄图像可以帮助远程皮肤科医生更准确地诊断皮肤状况一样，DLS的准确性随着图像数量的增加而提高。如果缺少元数据（例如，病史），则模型也不会执行。通过仅用图像训练DLS，可以部分地减轻可能在没有病史可用的情况下发生的精确度差异。然而，该数据表明，提供关于皮肤状况的一些问题的答案可以显着提高DLS准确度。

未来的工作和应用

虽然这些结果非常有希望，但仍有许多工作要做。首先，作为现实世界实践的反映，我们数据集中皮肤癌（如黑色素瘤）的相对罕见性阻碍了我们培养准确检测癌症系统的能力。与此相关，我们的数据集中的皮肤癌标签未经活检证实，在这方面限制了基本事实的质量。其次，虽然我们的数据集确实包含各种Fitzpatrick皮肤类型，但在此数据集中，某些皮肤类型太少，无法进行有意义的培训或分析。最后，验证数据集来自一个远程皮肤病学服务。虽然包括了两个州的17个主要护理地点，但对更广泛地理区域的病例进行额外验证将至关重要。我们相信这些限制可以通过在训练和验证集中包括更多经活检证实的皮肤癌病例来解决，包括代表其他Fitzpatrick皮肤类型和其他临床中心的病例。

深入学习为皮肤病的鉴别诊断提供信息的成功是非常令人鼓舞的，因为这种工具可以帮助临床医生。例如，这样的DLS可以帮助分类病例以指导临床护理的优先次序，或者可以帮助非皮肤科医生更准确地启动皮肤病护理并且可能改善进入。

原文链接：

https://ai.googleblog.com/2019/09/using-deep-learning-to-inform.html

论文链接：

https://arxiv.org/ftp/arxiv/papers/1909/1909.05382.pdf

专 · 知

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎登录www.zhuanzhi.ai，注册登录专知，获取更多AI知识资料！