在医疗问答(QA)系统中,可信性对于保障患者安全、提升临床效果以及增强用户信任具有重要意义。随着大语言模型(LLMs)日益被引入医疗场景,其回答的可靠性将直接影响临床决策和患者结果。然而,在医学问答中实现全面的可信性仍面临重大挑战,这主要源于医疗数据的高度复杂性、临床场景的关键性,以及可信人工智能所涉及的多维度特性。

在本综述中,我们系统性地探讨了医学问答中可信性的六个关键维度:事实性(Factuality)鲁棒性(Robustness)公平性(Fairness)安全性(Safety)可解释性(Explainability)校准性(Calibration)。我们回顾了当前基于LLM的医学问答系统在这些维度上的评估方法,整理并对比了用于衡量这些维度的主要基准测试,分析了以评估为导向的模型改进技术,例如基于检索的事实增强对抗式微调以及安全性对齐等。

最后,我们指出了当前面临的开放性挑战,例如:可扩展的专家评估方法集成式多维度评估指标以及真实世界中的部署研究,并提出了未来的研究方向,以推动LLM驱动的医学问答系统在安全、可靠和透明方面的落地应用。

成为VIP会员查看完整内容
9

相关内容

《深度学习在时间序列预测中的应用:综述》
专知会员服务
26+阅读 · 3月14日
《医学中的生成式人工智能》
专知会员服务
41+阅读 · 2024年12月16日
《静态与动态情感的面部表情识别综述》
专知会员服务
19+阅读 · 2024年8月31日
《数字孪生的未来:对国家安全的挑战和影响》
专知会员服务
31+阅读 · 2024年7月11日
《综述:测试与评估中应用的人工智能工具》
专知会员服务
70+阅读 · 2024年1月22日
《可解释人工智能在人工智能辅助决策中的作用综述》
专知会员服务
59+阅读 · 2024年1月4日
《应对人工智能系统测试和评估新挑战的最佳实践》
专知会员服务
83+阅读 · 2023年8月7日
【硬核书】数据科学,282页pdf
专知
26+阅读 · 2022年11月29日
【2022新书】生命科学的数据分析,511页pdf
专知
13+阅读 · 2022年11月15日
时空数据挖掘:综述
专知
31+阅读 · 2022年6月30日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Arxiv
170+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
464+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
169+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
《深度学习在时间序列预测中的应用:综述》
专知会员服务
26+阅读 · 3月14日
《医学中的生成式人工智能》
专知会员服务
41+阅读 · 2024年12月16日
《静态与动态情感的面部表情识别综述》
专知会员服务
19+阅读 · 2024年8月31日
《数字孪生的未来:对国家安全的挑战和影响》
专知会员服务
31+阅读 · 2024年7月11日
《综述:测试与评估中应用的人工智能工具》
专知会员服务
70+阅读 · 2024年1月22日
《可解释人工智能在人工智能辅助决策中的作用综述》
专知会员服务
59+阅读 · 2024年1月4日
《应对人工智能系统测试和评估新挑战的最佳实践》
专知会员服务
83+阅读 · 2023年8月7日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员