在医疗问答(QA)系统中,可信性对于保障患者安全、提升临床效果以及增强用户信任具有重要意义。随着大语言模型(LLMs)日益被引入医疗场景,其回答的可靠性将直接影响临床决策和患者结果。然而,在医学问答中实现全面的可信性仍面临重大挑战,这主要源于医疗数据的高度复杂性、临床场景的关键性,以及可信人工智能所涉及的多维度特性。
在本综述中,我们系统性地探讨了医学问答中可信性的六个关键维度:事实性(Factuality)、鲁棒性(Robustness)、公平性(Fairness)、安全性(Safety)、可解释性(Explainability)和校准性(Calibration)。我们回顾了当前基于LLM的医学问答系统在这些维度上的评估方法,整理并对比了用于衡量这些维度的主要基准测试,分析了以评估为导向的模型改进技术,例如基于检索的事实增强、对抗式微调以及安全性对齐等。
最后,我们指出了当前面临的开放性挑战,例如:可扩展的专家评估方法、集成式多维度评估指标以及真实世界中的部署研究,并提出了未来的研究方向,以推动LLM驱动的医学问答系统在安全、可靠和透明方面的落地应用。