Topic discovery in scientific literature provides valuable insights for researchers to identify emerging trends and explore new avenues for investigation, facilitating easier scientific information retrieval. Many machine learning methods, particularly deep embedding techniques, have been applied to discover research topics. However, most existing topic discovery methods rely on word embedding to capture the semantics and lack a comprehensive understanding of scientific publications, struggling with complex, high-dimensional text relationships. Inspired by the exceptional comprehension of textual information by large language models (LLMs), we propose an advanced topic discovery method enhanced by LLMs to improve scientific topic identification, namely SciTopic. Specifically, we first build a textual encoder to capture the content from scientific publications, including metadata, title, and abstract. Next, we construct a space optimization module that integrates entropy-based sampling and triplet tasks guided by LLMs, enhancing the focus on thematic relevance and contextual intricacies between ambiguous instances. Then, we propose to fine-tune the textual encoder based on the guidance from the LLMs by optimizing the contrastive loss of the triplets, forcing the text encoder to better discriminate instances of different topics. Finally, extensive experiments conducted on three real-world datasets of scientific publications demonstrate that SciTopic outperforms the state-of-the-art (SOTA) scientific topic discovery methods, enabling researchers to gain deeper and faster insights.


翻译:科学文献中的主题发现为研究人员识别新兴趋势和探索新的研究方向提供了宝贵洞见,有助于更便捷地进行科学信息检索。许多机器学习方法,尤其是深度嵌入技术,已被应用于发现研究主题。然而,现有的大多数主题发现方法依赖词嵌入来捕捉语义,缺乏对科学文献的全面理解,难以处理复杂的高维文本关系。受大语言模型(LLMs)对文本信息的卓越理解能力启发,我们提出了一种由LLMs增强的先进主题发现方法,以改进科学主题识别,即SciTopic。具体而言,我们首先构建一个文本编码器来捕捉科学文献的内容,包括元数据、标题和摘要。接着,我们设计了一个空间优化模块,该模块整合了基于熵的采样和由LLMs指导的三元组任务,增强了对模糊实例间主题相关性和上下文复杂性的关注。然后,我们提出基于LLMs的指导,通过优化三元组的对比损失来微调文本编码器,迫使文本编码器更好地区分不同主题的实例。最后,在三个真实世界的科学文献数据集上进行的大量实验表明,SciTopic优于最先进的(SOTA)科学主题发现方法,使研究人员能够获得更深入、更快速的洞察。

0
下载
关闭预览

相关内容

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员