【剑桥博士论文】小样本高维数据上的表格机器学习

本论文提出了四种新方法，以提高机器学习模型在小样本且高维度表格数据集上的泛化能力。表格数据（其中每一行代表一条记录，每一列代表一个特征）在医学、科学研究和金融等关键领域中广泛存在。然而，由于数据采集的困难，这些领域往往面临数据稀缺的问题，难以获得大样本量。同时，新型数据采集技术使得高维数据的获取变得可能，从而导致特征数量远远超过样本数量的数据集。数据稀缺和高维性对机器学习模型带来了显著挑战，主要原因在于由于维数灾难和样本不足，模型更容易发生过拟合，无法充分刻画数据的潜在分布。现有方法在这类场景下通常难以实现有效泛化，导致性能不尽如人意。因此，在小样本且高维数据集上训练模型需要专门设计的技术，以克服这些限制，并从有限数据中更高效地提取有用信息。我们提出了两种全新的以模型为中心的方法，以应对小样本和高维数据下神经网络的过拟合问题。我们的关键创新在于通过共享辅助网络来约束模型参数，这些辅助网络捕捉表格数据中潜在的关系，从而在一定程度上决定预测模型的参数，减少其自由度。首先，我们提出了 WPFS，这是一种参数高效的架构，通过权重预测网络对模型参数实施硬参数共享。其次，我们提出了 GCondNet，该方法利用图神经网络（GNNs）实现对底层预测模型的软参数共享。在应用于生物医学表格数据集时，这两种方法主要通过降低过拟合风险，实现了预测性能的提升。尽管单独依赖模型中心的方法较为常见，但结合数据中心方法往往能带来额外的性能提升，尤其是在数据稀缺的任务中。为此，我们还提出了两种新颖的数据增强方法，用于生成合成数据，以增加训练集的规模和多样性，从而捕捉到数据分布中更多的变异性。我们的关键创新在于将预训练的表格分类器转化为数据生成器，并以两种新方式利用其预训练信息。第一种方法 TabEBM 构建了专门的类别特定能量基模型（EBM），以近似类别条件分布，从而生成额外的训练数据。第二种方法 TabMDA 则引入了上下文内子集划分（ICS）技术，这种技术使得在预训练的上下文分类器所学习的流形空间内进行标签不变转换，进而有效扩充了训练数据集。两种方法均具有通用性、快速性、无需额外训练，并且可以应用于任何下游预测模型。它们均能显著提升分类性能，尤其在小数据集上效果尤为明显。总体而言，本论文在机器学习领域开辟了新的方向，旨在减轻过拟合问题，并在表格数据的生成与增强方面取得突破。我们的技术在医学、金融和科学研究等普遍面临数据稀缺和高维性难题的领域具有直接应用价值。通过证明即便在有限数据条件下也能实现更高效的学习，这项工作为未来克服数据限制、推广机器学习应用铺平了道路。