Developing open-set classification methods capable of classifying in-distribution (ID) data while detecting out-of-distribution (OOD) samples is essential for deploying graph neural networks (GNNs) in open-world scenarios. Existing methods typically treat all OOD samples as a single class, despite real-world applications, especially high-stake settings such as fraud detection and medical diagnosis, demanding deeper insights into OOD samples, including their probable labels. This raises a critical question: can OOD detection be extended to OOD classification without true label information? To address this question, we propose a Coarse-to-Fine open-set Classification (CFC) framework that leverages large language models (LLMs) for graph datasets. CFC consists of three key components: a coarse classifier that uses LLM prompts for OOD detection and outlier label generation, a GNN-based fine classifier trained with OOD samples identified by the coarse classifier for enhanced OOD detection and ID classification, and refined OOD classification achieved through LLM prompts and post-processed OOD labels. Unlike methods that rely on synthetic or auxiliary OOD samples, CFC employs semantic OOD instances that are genuinely out-of-distribution based on their inherent meaning, improving interpretability and practical utility. Experimental results show that CFC improves OOD detection by ten percent over state-of-the-art methods on graph and text domains and achieves up to seventy percent accuracy in OOD classification on graph datasets.


翻译:开发能够对分布内(ID)数据进行分类同时检测分布外(OOD)样本的开放集分类方法,对于在图神经网络(GNNs)在开放世界场景中的部署至关重要。现有方法通常将所有OOD样本视为单一类别,然而现实应用,尤其是高风险场景如欺诈检测和医疗诊断,需要对OOD样本(包括其可能的标签)有更深入的洞察。这引出了一个关键问题:能否在缺乏真实标签信息的情况下,将OOD检测扩展到OOD分类?为解决此问题,我们提出了一种从粗到细的开放集分类(CFC)框架,该框架利用大语言模型(LLMs)处理图数据集。CFC包含三个关键组件:一个使用LLM提示进行OOD检测和异常标签生成的粗分类器;一个基于GNN的细分类器,利用粗分类器识别的OOD样本进行训练,以增强OOD检测和ID分类;以及通过LLM提示和后处理的OOD标签实现的精细化OOD分类。与依赖合成或辅助OOD样本的方法不同,CFC采用基于其内在含义真正属于分布外的语义OOD实例,从而提高了可解释性和实际效用。实验结果表明,CFC在图和文本领域上,其OOD检测性能比最先进方法提高了百分之十,并在图数据集的OOD分类上达到了高达百分之七十的准确率。

0
下载
关闭预览

相关内容

【WWW2024】博弈论式反事实解释图神经网络
专知会员服务
32+阅读 · 2024年2月17日
【CVPR2022】多视图聚合的大规模三维语义分割
专知会员服务
21+阅读 · 2022年4月20日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【WWW2024】博弈论式反事实解释图神经网络
专知会员服务
32+阅读 · 2024年2月17日
【CVPR2022】多视图聚合的大规模三维语义分割
专知会员服务
21+阅读 · 2022年4月20日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员