The emergence of large language models (LLMs) has sparked much interest in creating LLM-based digital populations that can be applied to many applications such as social simulation, crowdsourcing, marketing, and recommendation systems. A digital population can reduce the cost of recruiting human participants and alleviate many concerns related to human subject study. However, research has found that most of the existing works rely solely on LLMs and could not sufficiently capture the accuracy and diversity of a real human population. To address this limitation, we propose CrowdLLM that integrates pretrained LLMs and generative models to enhance the diversity and fidelity of the digital population. We conduct theoretical analysis of CrowdLLM regarding its great potential in creating cost-effective, sufficiently representative, scalable digital populations that can match the quality of a real crowd. Comprehensive experiments are also conducted across multiple domains (e.g., crowdsourcing, voting, user rating) and simulation studies which demonstrate that CrowdLLM achieves promising performance in both accuracy and distributional fidelity to human data.


翻译:大语言模型(LLMs)的出现激发了人们对构建基于LLM的数字人口的广泛兴趣,这些数字人口可应用于社会模拟、众包、市场营销和推荐系统等诸多领域。数字人口能够降低招募人类参与者的成本,并缓解与人类受试者研究相关的诸多担忧。然而,研究发现,现有工作大多仅依赖LLMs,无法充分捕捉真实人类群体的准确性和多样性。为应对这一局限,我们提出了CrowdLLM,该方法整合了预训练LLMs与生成模型,以增强数字人口的多样性和保真度。我们对CrowdLLM进行了理论分析,表明其在创建成本效益高、代表性充分、可扩展且能匹配真实人群质量的数字人口方面具有巨大潜力。此外,我们在多个领域(如众包、投票、用户评分)和模拟研究中进行了全面实验,结果表明CrowdLLM在准确性及与人类数据的分布保真度方面均表现出优异的性能。

0
下载
关闭预览

相关内容

图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员