We investigate whether socio-economic indicators like household wealth leave recoverable imprints in satellite imagery (capturing physical features) and Internet-sourced text (reflecting historical/economic narratives). Using Demographic and Health Survey (DHS) data from African neighborhoods, we pair Landsat images with LLM-generated textual descriptions conditioned on location/year and text retrieved by an AI search agent from web sources. We develop a multimodal framework predicting household wealth (International Wealth Index) through five pipelines: (i) vision model on satellite images, (ii) LLM using only location/year, (iii) AI agent searching/synthesizing web text, (iv) joint image-text encoder, (v) ensemble of all signals. Our framework yields three contributions. First, fusing vision and agent/LLM text outperforms vision-only baselines in wealth prediction (e.g., R-squared of 0.77 vs. 0.63 on out-of-sample splits), with LLM-internal knowledge proving more effective than agent-retrieved text, improving robustness to out-of-country and out-of-time generalization. Second, we find partial representational convergence: fused embeddings from vision/language modalities correlate moderately (median cosine similarity of 0.60 after alignment), suggesting a shared latent code of material well-being while retaining complementary details, consistent with the Platonic Representation Hypothesis. Although LLM-only text outperforms agent-retrieved data, challenging our Agent-Induced Novelty Hypothesis, modest gains from combining agent data in some splits weakly support the notion that agent-gathered information introduces unique representational structures not fully captured by static LLM knowledge. Third, we release a large-scale multimodal dataset comprising more than 60,000 DHS clusters linked to satellite images, LLM-generated descriptions, and agent-retrieved texts.


翻译:本研究探讨社会经济指标(如家庭财富)是否在卫星影像(捕捉物理特征)和互联网文本(反映历史/经济叙事)中留下可恢复的痕迹。利用非洲社区的《人口与健康调查》(DHS)数据,我们将Landsat卫星图像与两种文本进行配对:一是基于地点/年份由大语言模型(LLM)生成的文本描述,二是由人工智能搜索智能体从网络源检索的文本。我们开发了一个多模态框架,通过五种流程预测家庭财富(国际财富指数):(i)基于卫星图像的视觉模型,(ii)仅使用地点/年份的LLM,(iii)搜索/合成网络文本的AI智能体,(iv)联合图像-文本编码器,(v)所有信号的集成。我们的框架贡献有三点。首先,融合视觉与智能体/LLM文本在财富预测中优于纯视觉基线(例如,在样本外划分中R平方值达0.77 vs. 0.63),其中LLM内部知识比智能体检索的文本更有效,提升了跨国和跨时间泛化的鲁棒性。其次,我们发现部分表征收敛:来自视觉/语言模态的融合嵌入呈现中等相关性(对齐后余弦相似度中位数为0.60),表明存在物质福祉的共享潜在编码,同时保留了互补细节,这与柏拉图式表征假说一致。尽管纯LLM文本优于智能体检索数据,这对我们的智能体诱导新颖性假说提出了挑战,但在某些划分中结合智能体数据带来的小幅增益,微弱支持了智能体收集的信息引入了静态LLM知识未能完全捕捉的独特表征结构这一观点。第三,我们发布了一个大规模多模态数据集,包含超过60,000个DHS聚类,关联了卫星图像、LLM生成的描述和智能体检索的文本。

0
下载
关闭预览

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关资讯
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员