Positive-Unlabeled (PU) learning presents unique challenges due to the lack of explicitly labeled negative samples, particularly in high-stakes domains such as fraud detection and medical diagnosis. To address data scarcity and privacy constraints, we propose a novel transfer learning with model averaging framework that integrates information from heterogeneous data sources - including fully binary labeled, semi-supervised, and PU data sets - without direct data sharing. For each source domain type, a tailored logistic regression model is conducted, and knowledge is transferred to the PU target domain through model averaging. Optimal weights for combining source models are determined via a cross-validation criterion that minimizes the Kullback-Leibler divergence. We establish theoretical guarantees for weight optimality and convergence, covering both misspecified and correctly specified target models, with further extensions to high-dimensional settings using sparsity-penalized estimators. Extensive simulations and real-world credit risk data analyses demonstrate that our method outperforms other comparative methods in terms of predictive accuracy and robustness, especially under limited labeled data and heterogeneous environments.


翻译:正未标记学习因缺乏显式标记的负样本而面临独特挑战,尤其在欺诈检测与医疗诊断等高风险领域。为应对数据稀缺与隐私约束,本文提出一种基于模型平均的新型迁移学习框架,该框架整合了来自异构数据源的信息——包括完全二元标记、半监督及正未标记数据集——且无需直接共享数据。针对每种源域类型,我们构建了定制的逻辑回归模型,并通过模型平均将知识迁移至正未标记目标域。结合源模型的最优权重通过最小化Kullback-Leibler散度的交叉验证准则确定。我们建立了权重最优性与收敛性的理论保证,涵盖目标模型误设与正确设定两种情况,并进一步扩展至使用稀疏惩罚估计器的高维场景。大量仿真实验与真实信用风险数据分析表明,本方法在预测准确性与鲁棒性方面优于其他对比方法,尤其在标记数据有限和异构环境下的表现更为突出。

0
下载
关闭预览

相关内容

ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员