数据异质性是决定机器学习系统性能的关键因素。标准算法优化平均情况性能时,并未考虑数据内部的多样性。因此,数据来源、数据生成机制和子群体的变化导致了不可靠的决策、较差的泛化能力、不公平和错误的科学发现。仔细建模数据异质性是构建可靠数据驱动系统的必要步骤。其严谨的研究是一个新兴研究领域,涵盖了多个学科,包括统计学、因果推断、机器学习、经济学和运筹学。 在这个教程中,我们发展了一个统一视角来理解不同社区发展的不同知识脉络。我们旨在通过提供基于共享语言的统一视角来促进跨学科研究。汲取多个独立文献的精华,我们建立了异质性的分类,并介绍了考虑异质性数据的定量度量和学习算法。为了推动实证进展,我们最后讨论了验证协议和基准测试实践。 教程:

成为VIP会员查看完整内容
42

相关内容

【CIKM2023教程】深度聚类算法的应用,94页ppt
专知会员服务
53+阅读 · 2023年11月8日
【干货书】高维统计学,572页pdf
专知
20+阅读 · 2021年12月3日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
174+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
494+阅读 · 2023年3月31日
Arxiv
180+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
相关论文
Arxiv
174+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
494+阅读 · 2023年3月31日
Arxiv
180+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
微信扫码咨询专知VIP会员