Foundation models, and in particular large language models, can generate highly informative responses, prompting growing interest in using these ''synthetic'' outputs as data in empirical research and decision-making. This paper introduces the idea of a foundation prior, which shows that model-generated outputs are not as real observations, but draws from the foundation prior induced prior predictive distribution. As such synthetic data reflects both the model's learned patterns and the user's subjective priors, expectations, and biases. We model the subjectivity of the generative process by making explicit the dependence of synthetic outputs on the user's anticipated data distribution, the prompt-engineering process, and the trust placed in the foundation model. We derive the foundation prior as an exponential-tilted, generalized Bayesian update of the user's primitive prior, where a trust parameter governs the weight assigned to synthetic data. We then show how synthetic data and the associated foundation prior can be incorporated into standard statistical and econometric workflows, and discuss their use in applications such as refining complex models, informing latent constructs, guiding experimental design, and augmenting random-coefficient and partially linear specifications. By treating generative outputs as structured, explicitly subjective priors rather than as empirical observations, the framework offers a principled way to harness foundation models in empirical work while avoiding the conflation of synthetic ''facts'' with real data.


翻译:基础模型,特别是大语言模型,能够生成高度信息化的响应,这促使人们日益关注在实证研究和决策中使用这些'合成'输出作为数据。本文提出了基础先验的概念,表明模型生成的输出并非真实观测值,而是从基础先验诱导的先验预测分布中抽取的样本。因此,合成数据既反映了模型学习到的模式,也反映了用户的主观先验、预期和偏见。我们通过明确合成输出对用户预期数据分布、提示工程过程以及对基础模型信任度的依赖性,对生成过程的主观性进行建模。我们将基础先验推导为用户原始先验的指数倾斜广义贝叶斯更新,其中信任参数控制赋予合成数据的权重。随后,我们展示了如何将合成数据及相关基础先验纳入标准统计与计量经济学工作流程,并讨论了其在精化复杂模型、构建潜在变量、指导实验设计以及增强随机系数与部分线性设定等应用场景中的使用方法。通过将生成式输出视为结构化、显式主观的先验而非经验观测值,该框架为在实证工作中利用基础模型提供了原则性方法,同时避免了将合成'事实'与真实数据混为一谈。

0
下载
关闭预览

相关内容

图提示学习最新综述
专知会员服务
21+阅读 · 2024年8月28日
PointNet系列论文解读
人工智能前沿讲习班
17+阅读 · 2019年5月3日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
RASNet 论文笔记
统计学习与视觉计算组
10+阅读 · 2018年4月26日
迁移学习之Domain Adaptation
全球人工智能
18+阅读 · 2018年4月11日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月10日
Arxiv
0+阅读 · 12月4日
Arxiv
0+阅读 · 11月29日
Arxiv
0+阅读 · 11月28日
VIP会员
相关资讯
PointNet系列论文解读
人工智能前沿讲习班
17+阅读 · 2019年5月3日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
RASNet 论文笔记
统计学习与视觉计算组
10+阅读 · 2018年4月26日
迁移学习之Domain Adaptation
全球人工智能
18+阅读 · 2018年4月11日
相关论文
Arxiv
0+阅读 · 12月10日
Arxiv
0+阅读 · 12月4日
Arxiv
0+阅读 · 11月29日
Arxiv
0+阅读 · 11月28日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员