模式与患者：基于第一人称叙事评估大语言模型与心理健康专家在人格障碍诊断中的表现 (Patterns vs. Patients: Evaluating LLMs against Mental Health Professionals on Personality Disorder Diagnosis through First-Person Narratives)

Growing reliance on LLMs for psychiatric self-assessment raises questions about their ability to interpret qualitative patient narratives. We present the first direct comparison between state-of-the-art LLMs and mental health professionals in diagnosing Borderline (BPD) and Narcissistic (NPD) Personality Disorders utilizing Polish-language first-person autobiographical accounts. We show that the top-performing Gemini Pro models surpassed human professionals in overall diagnostic accuracy by 21.91 percentage points (65.48% vs. 43.57%). While both models and human experts excelled at identifying BPD (F1 = 83.4 & F1 = 80.0, respectively), models severely underdiagnosed NPD (F1 = 6.7 vs. 50.0), showing a reluctance toward the value-laden term "narcissism." Qualitatively, models provided confident, elaborate justifications focused on patterns and formal categories, while human experts remained concise and cautious, emphasizing the patient's sense of self and temporal experience. Our findings demonstrate that while LLMs are highly competent at interpreting complex first-person clinical data, they remain subject to critical reliability and bias issues.

翻译：随着大语言模型在精神科自我评估中的应用日益广泛，其解释定性患者叙事的能力受到质疑。本研究首次采用波兰语第一人称自述文本，对前沿大语言模型与心理健康专家在边缘型人格障碍和自恋型人格障碍诊断中的表现进行直接比较。结果表明，性能最优的Gemini Pro模型在整体诊断准确率上超越人类专家21.91个百分点（65.48%对比43.57%）。虽然模型与人类专家在识别边缘型人格障碍方面均表现优异（F1分数分别为83.4和80.0），但模型对自恋型人格障碍存在严重漏诊现象（F1分数6.7对比50.0），显示出对具有价值负载的"自恋"术语的回避倾向。定性分析显示，模型倾向于提供自信详尽、聚焦于行为模式与形式分类的诊断依据，而人类专家则保持简洁审慎，更注重患者的自我感知与时间体验维度。本研究证明，尽管大语言模型在解析复杂的第一人称临床数据方面能力突出，但仍存在关键的可信度与偏差问题。