上海交大发布 MedMNIST 医学图像分析数据集 & 新基准

2020 年 11 月 10 日 THU数据派


来源:HyperAI超神经

本文 1422 ,建议阅读 3分钟
本文介绍上海交通大学发布了 MedMNIST 数据集,有望促进医学图像分析的发展。


令人头秃的医学图像分析


医学图像分析是一个公认的「老大难」课题。


首先它是一个跨学科领域,要求从业者具备多方面知识背景,即使你是钻研计算机视觉的专业人士,又或者是一个临床医学从业者,那你充其量只迈出了进行医学图像分析的半只脚。


乐观估计,经过多年的学习和研究,你终于掌握了计算机视觉和临床医学的双向技能,那接下来的操作也能让你愁到头秃,因为这些数据来源五花八门,有 X 射线、CT、超声……分析处理这么多个不同模式的非标准数据集,也太难了!


这还没完,深度学习虽然在医学图像分析的研究和应用中,已经占据主导地位,但模型调整需要的人力成本太高了,AutoML 好使是好使,但是目前基本没有用于医学图像分类的 AutoML 基准。


MedMNIST 分类十项全能一览


医学图像分析困难重重,然而上海交通大学近期发布的 MedMNIST 数据集,则为终结这些老大难问题,带来了一大利器。


10 个公开数据集、45 万张图像重新整理


MedMNIST 是一个包含 10 个医学公开数据集的集合,且全部数据均已经过预处理,将其分为包括训练集、验证集、测试子集的标准数据集。数据来源包括 X 射线、OCT、超声、CT 等不同成像模式,得到了同一病灶的多模态数据。与 MNIST 数据集一样,MedMNIST 可以在轻量级 28*28 图像上执行分类任务。


十个数据集的数据模式、适用任务及图像数量


MedMNIST 具有以下特点:


教育性:多模态数据来自于多个公共医学图像数据集,采用知识共享(CC)许可协议或自由许可协议,方便教学使用。


标准化:全部数据已经预处理成相同的格式,降低准入门槛,任何人都可以使用。


多样性:多模态数据集涵盖了不同的数据模式,数据规模从 100 到 100,000 都支持,任务类型也丰富为二元分类、多元分类、有序回归和多标签。


轻量级:28*28 的图像尺寸便于迅速进行原型设计,对多模态机器学习和 AutoML 算法进行快速迭代和实验。


MedMNIST Dataset

发布机构:上海交通大学

包含数量:454,591 个图像数据

数据格式:NPZ

数据大小:654 MB

发布时间:2020 年 10 月 28 日

下载地址:http://dwz.date/dew2


 十项全能大法好,打造 AutoML 新基准
 


受《医学分割十项全能》(Medical Segmentation Decathlon)的启发,上海交通大学的科研人员还发布了《MedMNIST 分类十项全能》 (MedMNIST Classification Decathlon),作为医学图像分类中的轻量级 AutoML 基准。


科研人员用 MedMNIST 分类十项全能,评估了在全部 10 个数据集上的算法性能,并采取了其他几个 baseline 方法与该基准进行对比,这些方法包括 ResNets(18、50)、auto-sklearn、AutoKeras、Google AutoML Vision。


MedMNIST 在 AUC 和 ACC 等指标上的性能一览


实验结果表明,针对全部 10 个数据集,都能取得很好的泛化性能的算法,在实验中并不存在。该实验对于探索在不同数据模式、任务类型和数据规模上,进行很好地泛化的 AutoML 算法,意义重大。


MedMNIST 分类十项全能基准测试,将促进未来医学图像分析 AutoML 的相关研究。


相关论文:

https://arxiv.org/pdf/2010.14925.pdf


开源地址:

https://github.com/MedMNIST/MedMNIST


现在下载数据集,开始你的训练


下载数据集,在线训练机器学习模型,你可以通过 OpenBayes 开启你的练习。


OpenBayes 是一个针对机器学习提供云端算力的云服务平台,它拥有大规模的超算集群,支持多种配置的 GPU、CPU 算力资源,拥有开箱即用泛用型机器学习建模系统,无需机器学习经验,即可快速建立智能系统


目前 OpenBayes 的算力容器产品已经支持 TensorFlow、PyTorch、MXNet、Darknet、cpp-develop 等 CPU 和 GPU 环境下,不同版本、类型的标准机器学习框架和各种常用依赖。



同时 OpenBayes 还提供 CPU、NVIDIA T4、NVIDIA Tesla V100 等多种算力资源,无论是海量数据的集中训练,还是低功耗的模型常驻运行,都能轻松满足用户需求。



目前 MedMNIST 数据集已经上线 OpenBayes。



—— END ——

登录查看更多
3

相关内容

专知会员服务
45+阅读 · 2021年1月31日
20年单类别(One-Class)分类全面综述论文,从2001到2020
专知会员服务
23+阅读 · 2021年1月12日
【NeurIPS 2020】对比学习全局和局部医学图像分割特征
专知会员服务
44+阅读 · 2020年10月20日
西北大学等最新《深度主动学习》全面综述论文,30页pdf
【ICML2020】对比多视角表示学习
专知会员服务
53+阅读 · 2020年6月28日
高效医疗图像分析的统一表示
专知会员服务
35+阅读 · 2020年6月23日
最新《深度半监督学习》综述论文,43页pdf
专知会员服务
156+阅读 · 2020年6月12日
【干货】二十五个深度学习相关公开数据集
深度学习世界
6+阅读 · 2018年4月13日
下载 ‖ 十大医疗数据集
机械鸡
103+阅读 · 2017年8月5日
Arxiv
6+阅读 · 2020年9月29日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Arxiv
151+阅读 · 2017年8月1日
VIP会员
相关VIP内容
专知会员服务
45+阅读 · 2021年1月31日
20年单类别(One-Class)分类全面综述论文,从2001到2020
专知会员服务
23+阅读 · 2021年1月12日
【NeurIPS 2020】对比学习全局和局部医学图像分割特征
专知会员服务
44+阅读 · 2020年10月20日
西北大学等最新《深度主动学习》全面综述论文,30页pdf
【ICML2020】对比多视角表示学习
专知会员服务
53+阅读 · 2020年6月28日
高效医疗图像分析的统一表示
专知会员服务
35+阅读 · 2020年6月23日
最新《深度半监督学习》综述论文,43页pdf
专知会员服务
156+阅读 · 2020年6月12日
Top
微信扫码咨询专知VIP会员