With the advent of LLMs, various tasks across the natural language processing domain have been transformed. However, their application in predictive tasks remains less researched. This study compares large language models, including GatorTron-Base (trained on clinical data), Llama 8B, and Mistral 7B, against models like BioBERT, DocBERT, BioClinicalBERT, Word2Vec, and Doc2Vec, setting benchmarks for predicting Shock in critically ill patients. Timely prediction of shock can enable early interventions, thus improving patient outcomes. Text data from 17,294 ICU stays of patients in the MIMIC III database were scored for length of stay > 24 hours and shock index (SI) > 0.7 to yield 355 and 87 patients with normal and abnormal SI-index, respectively. Both focal and cross-entropy losses were used during finetuning to address class imbalances. Our findings indicate that while GatorTron Base achieved the highest weighted recall of 80.5%, the overall performance metrics were comparable between SLMs and LLMs. This suggests that LLMs are not inherently superior to SLMs in predicting future clinical events despite their strong performance on text-based tasks. To achieve meaningful clinical outcomes, future efforts in training LLMs should prioritize developing models capable of predicting clinical trajectories rather than focusing on simpler tasks such as named entity recognition or phenotyping.


翻译:随着大型语言模型(LLMs)的出现,自然语言处理领域的各项任务已发生变革。然而,其在预测性任务中的应用仍较少被研究。本研究比较了包括基于临床数据训练的GatorTron-Base、Llama 8B和Mistral 7B在内的大型语言模型,与BioBERT、DocBERT、BioClinicalBERT、Word2Vec及Doc2Vec等模型在预测危重患者休克方面的性能,并建立了相应的基准。休克的及时预测有助于早期干预,从而改善患者预后。研究使用MIMIC III数据库中17,294例ICU住院患者的文本数据,通过筛选住院时长>24小时且休克指数(SI)>0.7的病例,最终得到355例SI指数正常和87例SI指数异常的患者。在微调过程中,同时采用焦点损失和交叉熵损失以处理类别不平衡问题。研究结果表明,尽管GatorTron Base取得了最高的加权召回率(80.5%),但专用语言模型(SLMs)与大型语言模型(LLMs)的整体性能指标相当。这表明,尽管LLMs在文本任务上表现优异,但在预测未来临床事件方面并未先天优于SLMs。为实现有意义的临床成果,未来训练LLMs的努力应优先开发能够预测临床轨迹的模型,而非专注于命名实体识别或表型分类等较简单的任务。

0
下载
关闭预览

相关内容

RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
87+阅读 · 2024年5月3日
临床自然语言处理中的嵌入综述,SECNLP: A survey of embeddings
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员