论文题目:Boosting LLM’s Molecular Structure Elucidation with Knowledge Enhanced Tree Search Reasoning

本文作者:庄祥(浙江大学)、吴槟(伦敦大学学院)、崔稷宇(浙江大学)、冯科华(浙江大学)、李晓彤(浙江大学)、邢华斌(浙江大学)、丁科炎(浙江大学)、张强(浙江大学)、陈华钧(浙江大学)

发表会议:ACL 2025 Main Conference

论文链接:https://arxiv.org/abs/2506.23056

代码链接:https://github.com/HICAI-ZJU/K-MSE

欢迎转载,转载请注明出处****

一、研究背景

分子结构解析(Molecular Structure Elucidation)是从各种光谱数据(如核磁共振NMR、红外IR等)推断分子结构的过程,这对于化学实验分析至关重要。准确的分子结构解析是化学研究中的一个关键步骤,它有助于解释实验结果,推动化学研究的进展。尽管LLMs在许多领域表现出色,但在分子结构解析任务中仍然面临重大挑战,主要原因是它们对专业化学知识的掌握有限。具体来说,这些挑战可以归纳为以下两个方面:

  1. 化学分子结构空间覆盖不足:LLMs在处理分子结构时,往往缺乏对复杂分子结构的全面理解。例如,LLMs可能无法准确识别某些特定的子结构,如含有硫原子的芳香杂环(如噻吩)。这种对分子子结构知识的缺失,限制了LLMs在解析复杂分子结构时的准确性。
  2. 推理过程评估不准确: LLMs在推理过程中的准确评估和纠错对推理能力的提升非常关键。然而,LLMs在这方面的表现并不理想。由于缺乏对化学领域的深入理解,LLMs无法准确评估预测分子与光谱数据之间的一致性,从而无法提供精确的反馈和指导。

鉴于LLMs在分子结构解析任务中的挑战,研究者提出了一个知识增强的推理框架(K-MSE),旨在通过引入外部专业领域知识和专门的评估模型,提升LLMs在这一任务中的表现。 二、研究方法:知识增强的分子结构解析框架K-MSE

2.1 概览

K-MSE框架通过以下两个主要方式提升LLMs的分子结构解析能力:

  1. 构建外部分子子结构知识库:为了弥补LLMs在化学分子结构空间覆盖上的不足,研究者构建了一个包含分子子结构及其文本描述的外部知识库。这些子结构是从一个广泛使用的分子数据库中提取的,涵盖了环状和链状结构。
  2. 专门设计的分子-光谱评分器:为了解决LLMs在评估解决方案时的不准确性问题,研究者设计并训练了一个专门的评分器作为奖励模型。该评分器由分子编码器和光谱编码器组成,能够评估分子结构与光谱数据之间的一致程度,并在推理过程中为解决方案提供准确的奖励分数。

2.2 ****分子子结构知识库知识库中的子结构分为环状结构和链状结构。环状结构是指原子形成的闭合环,如苯环;链状结构是指分子内原子的线性排列。知识库的子结构以SMILES格式表示。此外,知识库还包括这些子结构的自然语言描述,这些描述是通过LLMs自动生成的。为了保证描述的准确性,在生成时结合了外部工具提供的结构信息,如分子式、分子图像和结构三元组。 **2.3 **分子-光谱评分器

该评分器由分子编码器和光谱编码器 组成。分子编码器使用图神经网络GIN和多层感知机MLP对分子图和分子指纹进行编码,最终生成分子的嵌入表示 。光谱编码器则对C-NMR和H-NMR数据进行编码,生成光谱的嵌入表示。通过计算和之间的相似度,评分器能够评估分子结构与光谱数据之间的匹配程度。评分器使用对比学习损失进行训练。 **2.4 **基于MCTS的推理框架

K-MSE框架将知识库和评分器整合到基于蒙特卡洛树搜索(MCTS)的推理框架中。在推理过程中,首先从知识库中使用分子-光谱评分器检索与查询光谱最相关的子结构及其描述,然后通过MCTS进行迭代推理。每次迭代包括选择、扩展、评估和回溯四个关键步骤:

  • 选择:使用上置信界树(UCT)作为选择标准,选择一个节点进行扩展。
  • 扩展:对选定节点的当前解决方案进行批判,识别不足之处,并生成新的解决方案作为子节点。
  • 评估:使用分子-光谱评分器计算新生成节点的奖励值。
  • 回溯:将新节点的Q值回溯到其父节点,逐步优化推理过程。

三、实验

实验在MolPuzzle数据集上进行,输入包括IR、C-NMR、H-NMR和分子式,目标是以零样本的方式预测分子的SMILES表示。实验选择了Llama-3.2-11B-Vision-Instruct、GPT-4o-mini、GPT-4o和GPT-o1作为基础模型。实验结果显示,K-MSE方法在所有基础模型上均优于基线方法,特别是在GPT-4o-mini和GPT-4o上,ACC分别提高了0.236和0.300。

成为VIP会员查看完整内容
0

相关内容

ACL 2025 | 大模型结构化知识提示的泛化能力研究
专知会员服务
26+阅读 · 8月10日
ACL 2025 | 事件检索增强大语言模型生成
专知会员服务
17+阅读 · 7月18日
ACL 2025 | 高效样本利用的大模型人类评估方法
专知会员服务
13+阅读 · 5月22日
NAACL 2025 | 知识增强下的智能体规划
专知会员服务
37+阅读 · 3月25日
AAAI 2025 | 基于模态分词的细粒度实体表示学习框架
专知会员服务
26+阅读 · 2024年12月26日
ACL 2024 | 基于自我规划的自动化问答智能体学习
专知会员服务
23+阅读 · 2024年7月28日
IJCAI 2024 | 持续多模态知识图谱构建
专知会员服务
31+阅读 · 2024年6月6日
ICLR2024 | 语言模型知识编辑的鲁棒性研究
专知会员服务
18+阅读 · 2024年3月15日
IEEE Proc.|基于知识图谱的少样本和零样本学习综述
专知会员服务
49+阅读 · 2024年2月2日
【WSDM2022】基于约束聚类学习离散表示的高效密集检索
专知会员服务
27+阅读 · 2021年11月16日
论文浅尝 | 重新实验评估知识图谱补全方法
开放知识图谱
28+阅读 · 2020年3月29日
论文浅尝 | 基于深度序列模型的知识图谱补全
开放知识图谱
29+阅读 · 2019年5月19日
论文浅尝 | 基于属性嵌入的知识图谱间实体对齐方法
开放知识图谱
30+阅读 · 2019年3月26日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
480+阅读 · 2023年3月31日
Arxiv
79+阅读 · 2023年3月26日
Arxiv
10+阅读 · 2020年11月26日
Optimization for deep learning: theory and algorithms
Arxiv
106+阅读 · 2019年12月19日
VIP会员
相关VIP内容
ACL 2025 | 大模型结构化知识提示的泛化能力研究
专知会员服务
26+阅读 · 8月10日
ACL 2025 | 事件检索增强大语言模型生成
专知会员服务
17+阅读 · 7月18日
ACL 2025 | 高效样本利用的大模型人类评估方法
专知会员服务
13+阅读 · 5月22日
NAACL 2025 | 知识增强下的智能体规划
专知会员服务
37+阅读 · 3月25日
AAAI 2025 | 基于模态分词的细粒度实体表示学习框架
专知会员服务
26+阅读 · 2024年12月26日
ACL 2024 | 基于自我规划的自动化问答智能体学习
专知会员服务
23+阅读 · 2024年7月28日
IJCAI 2024 | 持续多模态知识图谱构建
专知会员服务
31+阅读 · 2024年6月6日
ICLR2024 | 语言模型知识编辑的鲁棒性研究
专知会员服务
18+阅读 · 2024年3月15日
IEEE Proc.|基于知识图谱的少样本和零样本学习综述
专知会员服务
49+阅读 · 2024年2月2日
【WSDM2022】基于约束聚类学习离散表示的高效密集检索
专知会员服务
27+阅读 · 2021年11月16日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员