The success of deep networks is crucially attributed to their ability to capture latent features within a representation space. In this work, we investigate whether the underlying learned features of a model can be efficiently retrieved through feedback from an agent, such as a large language model (LLM), in the form of relative \tt{triplet comparisons}. These features may represent various constructs, including dictionaries in LLMs or a covariance matrix of Mahalanobis distances. We analyze the feedback complexity associated with learning a feature matrix in sparse settings. Our results establish tight bounds when the agent is permitted to construct activations and demonstrate strong upper bounds in sparse scenarios when the agent's feedback is limited to distributional information. We validate our theoretical findings through experiments on two distinct applications: feature recovery from Recursive Feature Machines and dictionary extraction from sparse autoencoders trained on Large Language Models.


翻译:深度网络的成功关键归因于其捕捉表示空间内潜在特征的能力。在本研究中,我们探讨是否能够通过来自智能体(如大型语言模型(LLM))的反馈,以相对三元组比较的形式,高效地检索模型所学习的基础特征。这些特征可能代表多种结构,包括LLM中的字典或马氏距离的协方差矩阵。我们分析了在稀疏设置下学习特征矩阵相关的反馈复杂性。我们的结果确立了当允许智能体构建激活时的紧致界,并证明了当智能体的反馈仅限于分布信息时,在稀疏场景下的强上界。我们通过两个不同应用的实验验证了理论发现:从递归特征机中恢复特征,以及从在大型语言模型上训练的稀疏自编码器中提取字典。

0
下载
关闭预览

相关内容

【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员