本论文提出了四种新方法,以提高机器学习模型在小样本且高维度表格数据集上的泛化能力。表格数据(其中每一行代表一条记录,每一列代表一个特征)在医学、科学研究和金融等关键领域中广泛存在。然而,由于数据采集的困难,这些领域往往面临数据稀缺的问题,难以获得大样本量。同时,新型数据采集技术使得高维数据的获取变得可能,从而导致特征数量远远超过样本数量的数据集。数据稀缺和高维性对机器学习模型带来了显著挑战,主要原因在于由于维数灾难和样本不足,模型更容易发生过拟合,无法充分刻画数据的潜在分布。现有方法在这类场景下通常难以实现有效泛化,导致性能不尽如人意。因此,在小样本且高维数据集上训练模型需要专门设计的技术,以克服这些限制,并从有限数据中更高效地提取有用信息。 我们提出了两种全新的以模型为中心的方法,以应对小样本和高维数据下神经网络的过拟合问题。我们的关键创新在于通过共享辅助网络来约束模型参数,这些辅助网络捕捉表格数据中潜在的关系,从而在一定程度上决定预测模型的参数,减少其自由度。首先,我们提出了 WPFS,这是一种参数高效的架构,通过权重预测网络对模型参数实施硬参数共享。其次,我们提出了 GCondNet,该方法利用图神经网络(GNNs)实现对底层预测模型的软参数共享。在应用于生物医学表格数据集时,这两种方法主要通过降低过拟合风险,实现了预测性能的提升。 尽管单独依赖模型中心的方法较为常见,但结合数据中心方法往往能带来额外的性能提升,尤其是在数据稀缺的任务中。为此,我们还提出了两种新颖的数据增强方法,用于生成合成数据,以增加训练集的规模和多样性,从而捕捉到数据分布中更多的变异性。我们的关键创新在于将预训练的表格分类器转化为数据生成器,并以两种新方式利用其预训练信息。第一种方法 TabEBM 构建了专门的类别特定能量基模型(EBM),以近似类别条件分布,从而生成额外的训练数据。第二种方法 TabMDA 则引入了上下文内子集划分(ICS)技术,这种技术使得在预训练的上下文分类器所学习的流形空间内进行标签不变转换,进而有效扩充了训练数据集。两种方法均具有通用性、快速性、无需额外训练,并且可以应用于任何下游预测模型。它们均能显著提升分类性能,尤其在小数据集上效果尤为明显。 总体而言,本论文在机器学习领域开辟了新的方向,旨在减轻过拟合问题,并在表格数据的生成与增强方面取得突破。我们的技术在医学、金融和科学研究等普遍面临数据稀缺和高维性难题的领域具有直接应用价值。通过证明即便在有限数据条件下也能实现更高效的学习,这项工作为未来克服数据限制、推广机器学习应用铺平了道路。

成为VIP会员查看完整内容
17

相关内容

工业机器视觉中的生成式人工智能综述
专知会员服务
45+阅读 · 2024年9月1日
大模型时代的自动图表理解综述
专知会员服务
69+阅读 · 2024年3月19日
大模型如何赋能医学?全科医学人工智能基础模型
专知会员服务
88+阅读 · 2023年4月13日
深度学习在时间序列异常检测中的应用综述
专知会员服务
109+阅读 · 2022年11月11日
细粒度图像分类的深度学习方法
专知会员服务
43+阅读 · 2021年10月18日
数据受限条件下的多模态处理技术综述
专知
19+阅读 · 2022年7月16日
综述| 当图神经网络遇上强化学习
图与推荐
33+阅读 · 2022年7月1日
【AI与医学】多模态机器学习精准医疗健康
清华大学《高级机器学习》课程
专知
39+阅读 · 2020年7月21日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
深度学习时代的目标检测算法
炼数成金订阅号
39+阅读 · 2018年3月19日
国家自然科学基金
18+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
168+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
453+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
167+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
工业机器视觉中的生成式人工智能综述
专知会员服务
45+阅读 · 2024年9月1日
大模型时代的自动图表理解综述
专知会员服务
69+阅读 · 2024年3月19日
大模型如何赋能医学?全科医学人工智能基础模型
专知会员服务
88+阅读 · 2023年4月13日
深度学习在时间序列异常检测中的应用综述
专知会员服务
109+阅读 · 2022年11月11日
细粒度图像分类的深度学习方法
专知会员服务
43+阅读 · 2021年10月18日
相关资讯
数据受限条件下的多模态处理技术综述
专知
19+阅读 · 2022年7月16日
综述| 当图神经网络遇上强化学习
图与推荐
33+阅读 · 2022年7月1日
【AI与医学】多模态机器学习精准医疗健康
清华大学《高级机器学习》课程
专知
39+阅读 · 2020年7月21日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
深度学习时代的目标检测算法
炼数成金订阅号
39+阅读 · 2018年3月19日
相关基金
国家自然科学基金
18+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
相关论文
微信扫码咨询专知VIP会员