Rare diseases affect hundreds of millions worldwide, yet diagnosis often spans years. Convectional pipelines decouple noisy evidence extraction from downstream inferential diagnosis, and general/medical large language models (LLMs) face scarce real world electronic health records (EHRs), stale domain knowledge, and hallucinations. We assemble a large, domain specialized clinical corpus and a clinician validated reasoning set, and develop RareSeek R1 via staged instruction tuning, chain of thought learning, and graph grounded retrieval. Across multicenter EHR narratives and public benchmarks, RareSeek R1 attains state of the art accuracy, robust generalization, and stability under noisy or overlapping phenotypes. Augmented retrieval yields the largest gains when narratives pair with prioritized variants by resolving ambiguity and aligning candidates to mechanisms. Human studies show performance on par with experienced physicians and consistent gains in assistive use. Notably, transparent reasoning highlights decisive non phenotypic evidence (median 23.1%, such as imaging, interventions, functional tests) underpinning many correct diagnoses. This work advances a narrative first, knowledge integrated reasoning paradigm that shortens the diagnostic odyssey and enables auditable, clinically translatable decision support.


翻译:罕见病影响全球数亿人口,但诊断过程往往长达数年。传统流程将噪声证据提取与下游推断诊断分离,而通用/医学大语言模型面临真实世界电子健康记录稀缺、领域知识陈旧及幻觉问题。本研究构建了一个大规模领域专用临床语料库及经临床医生验证的推理数据集,并通过分阶段指令微调、思维链学习及图基检索开发了RareSeek R1模型。在多中心电子健康记录叙事数据及公共基准测试中,RareSeek R1实现了最先进的准确率、鲁棒的泛化能力以及在噪声或重叠表型下的稳定性。增强检索通过消解歧义并将候选结果与致病机制对齐,在叙事数据与优先变异位点配对时带来最大性能提升。人工评估表明其诊断性能与经验丰富的医师相当,并在辅助使用中持续获益。值得注意的是,透明推理机制凸显了支撑多数正确诊断的关键非表型证据(中位数占比23.1%,如影像学、干预措施、功能检测)。本研究推进了以叙事优先、知识融合的推理范式,可缩短诊断历程,并提供可审计、可临床转化的决策支持。

0
下载
关闭预览

相关内容

AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员