大语言模型中语义角色回路的涌现与定位 (Emergence and Localisation of Semantic Role Circuits in LLMs) - 专知论文

会员服务 ·

0

语言模型 · 语义角色 · 结构 · 语义结构 · 分析 ·

Emergence and Localisation of Semantic Role Circuits in LLMs

翻译：大语言模型中语义角色回路的涌现与定位

Nura Aljaafari,Danilo S. Carvalho,André Freitas

Despite displaying semantic competence, large language models' internal mechanisms that ground abstract semantic structure remain insufficiently characterised. We propose a method integrating role-cross minimal pairs, temporal emergence analysis, and cross-model comparison to study how LLMs implement semantic roles. Our analysis uncovers: (i) highly concentrated circuits (89-94% attribution within 28 nodes); (ii) gradual structural refinement rather than phase transitions, with larger models sometimes bypassing localised circuits; and (iii) moderate cross-scale conservation (24-59% component overlap) alongside high spectral similarity. These findings suggest that LLMs form compact, causally isolated mechanisms for abstract semantic structure, and these mechanisms exhibit partial transfer across scales and architectures.

翻译：尽管大语言模型展现出语义理解能力，但其内部实现抽象语义结构的基础机制仍未被充分揭示。我们提出了一种整合角色交叉最小对、时序涌现分析和跨模型比较的方法，以研究大语言模型如何实现语义角色。我们的分析揭示了：（i）高度集中的回路（在28个节点内实现89-94%的归因）；（ii）结构逐步精细化而非发生相变，且更大模型有时会绕过局部化回路；（iii）中等程度的跨尺度守恒性（组件重叠率为24-59%）以及较高的谱相似性。这些发现表明，大语言模型形成了紧凑且因果隔离的抽象语义结构机制，并且这些机制在不同规模和架构间表现出部分可迁移性。

0

相关内容

语言模型

【超越消息传递:图神经网络的物理启发范式】Beyond Message Passing: a Physics-Inspired Paradigm for Graph Neural Networks

【超越消息传递:图神经网络的物理启发范式】Beyond Message Passing: a Physics-Inspired Paradigm for Graph Neural Networks

专知会员服务

17+阅读 · 2022年5月10日

【WWW2021】实体自适应语义依赖图立场检测

专知会员服务

22+阅读 · 2021年4月15日

【ICLR2021】基于动态正则化的联邦学习

专知会员服务

42+阅读 · 2021年1月18日

【NeurIPS2020】可处理的反事实推理的深度结构因果模型

【NeurIPS2020】可处理的反事实推理的深度结构因果模型

专知会员服务

49+阅读 · 2020年9月28日

【WWW2020-MAGNN】异质图嵌入的集合图神经网络 MAGNN: Metapath Aggregated Graph Neural Network for Heterogeneous Graph Embedding

【WWW2020-MAGNN】异质图嵌入的集合图神经网络 MAGNN: Metapath Aggregated Graph Neural Network for Heterogeneous Graph Embedding

专知会员服务

116+阅读 · 2020年2月10日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

误差反向传播——CNN

误差反向传播——CNN

统计学习与视觉计算组

30+阅读 · 2018年7月12日

神经网络机器翻译原理：LSTM、seq2seq到Zero-Shot

神经网络机器翻译原理：LSTM、seq2seq到Zero-Shot

北京思腾合力科技有限公司

11+阅读 · 2017年8月10日

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

炼数成金订阅号

26+阅读 · 2017年7月10日

自然语言处理（二）机器翻译篇 (NLP: machine translation)

自然语言处理（二）机器翻译篇 (NLP: machine translation)

DeepLearning中文论坛

12+阅读 · 2015年7月1日

粗糙回归模型与算法研究

国家自然科学基金

8+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

Jacobi行列式和Hilbert变换中的若干问题及应用

国家自然科学基金

0+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

Grammaticality Judgments in Humans and Language Models: Revisiting Generative Grammar with LLMs

Arxiv

0+阅读 · 12月11日

Semantic Anchors in In-Context Learning: Why Small LLMs Cannot Flip Their Labels

Arxiv

0+阅读 · 11月26日

Geometry of Decision Making in Language Models

Arxiv

0+阅读 · 11月25日

Behavior Trees vs Executable Ontologies: a Comparative Analysis of Robot Control Paradigms

Arxiv

0+阅读 · 11月19日

Verifiable Fine-Tuning for LLMs: Zero-Knowledge Training Proofs Bound to Data Provenance and Policy

Arxiv

0+阅读 · 11月10日

VIP会员

文章信息

相关主题

相关VIP内容

【超越消息传递:图神经网络的物理启发范式】Beyond Message Passing: a Physics-Inspired Paradigm for Graph Neural Networks

【超越消息传递:图神经网络的物理启发范式】Beyond Message Passing: a Physics-Inspired Paradigm for Graph Neural Networks

专知会员服务

17+阅读 · 2022年5月10日

【WWW2021】实体自适应语义依赖图立场检测

专知会员服务

22+阅读 · 2021年4月15日

【ICLR2021】基于动态正则化的联邦学习

专知会员服务

42+阅读 · 2021年1月18日

【NeurIPS2020】可处理的反事实推理的深度结构因果模型

【NeurIPS2020】可处理的反事实推理的深度结构因果模型

专知会员服务

49+阅读 · 2020年9月28日

【WWW2020-MAGNN】异质图嵌入的集合图神经网络 MAGNN: Metapath Aggregated Graph Neural Network for Heterogeneous Graph Embedding

【WWW2020-MAGNN】异质图嵌入的集合图神经网络 MAGNN: Metapath Aggregated Graph Neural Network for Heterogeneous Graph Embedding

专知会员服务

116+阅读 · 2020年2月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《指挥官意图消息中关键概念自动提取》最新47页

《深入机器人领域：DARPA地下挑战赛分析与洞见》

《利用人工智能对军事行动进行建模》

《利用人工智能学习、优化与推演美国海军作战部队的战略布局与分散（续文）》

相关资讯

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

误差反向传播——CNN

误差反向传播——CNN

统计学习与视觉计算组

30+阅读 · 2018年7月12日

神经网络机器翻译原理：LSTM、seq2seq到Zero-Shot

神经网络机器翻译原理：LSTM、seq2seq到Zero-Shot

北京思腾合力科技有限公司

11+阅读 · 2017年8月10日

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

炼数成金订阅号

26+阅读 · 2017年7月10日

自然语言处理（二）机器翻译篇 (NLP: machine translation)

自然语言处理（二）机器翻译篇 (NLP: machine translation)

DeepLearning中文论坛

12+阅读 · 2015年7月1日

相关论文

Grammaticality Judgments in Humans and Language Models: Revisiting Generative Grammar with LLMs

Arxiv

0+阅读 · 12月11日

Semantic Anchors in In-Context Learning: Why Small LLMs Cannot Flip Their Labels

Arxiv

0+阅读 · 11月26日

Geometry of Decision Making in Language Models

Arxiv

0+阅读 · 11月25日

Behavior Trees vs Executable Ontologies: a Comparative Analysis of Robot Control Paradigms

Arxiv

0+阅读 · 11月19日

Verifiable Fine-Tuning for LLMs: Zero-Knowledge Training Proofs Bound to Data Provenance and Policy

Arxiv

0+阅读 · 11月10日

相关基金

粗糙回归模型与算法研究

国家自然科学基金

8+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

Jacobi行列式和Hilbert变换中的若干问题及应用

国家自然科学基金

0+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员