从医疗诊断到人才招聘,基础模型有望在关键领域带来变革性突破。然而,当这些系统产生幻觉(生成虚假内容)、存在歧视或发生静默失效时,亦可能对人类造成严重危害。要使人工智能兑现其潜力,必须同时满足两个条件:系统本身具备可信性(trustworthiness),且人类对其建立适度信任(appropriate trust)。

  • 可信性(Trustworthiness)是系统的内在属性,体现为可靠性、公平性与准确性;
  • 信任(Trust)则是人类在良好数字技术支撑下形成的态度,表现为愿意采纳AI输出并依据其建议行动。

二者共同构成AI有益部署的前提,且均需兼顾技术与人文维度。本论文采用跨学科方法,融合理论建模、实证验证与人本研究,系统探究可信性与信任的三大核心组件: 第一,可信数据选择

通过临床机器学习与人类反馈强化学习(RLHF)中的奖励建模实证,揭示数据质量比数据规模更重要。即使无法确保全域数据质量,本研究提出一种分布鲁棒性(distributional robustness)概念,可在高质量数据子集上保持模型性能。 第二,可信AI决策

• 构建统一的公平性框架,在存在刻板印象的场景中实现公平决策; • 设计抗策略机制(strategy-proof mechanism),当候选人使用AI增强申请材料时,该机制能同时保障筛选过程的公平性与准确性。 第三,部署中的AI辅助信任

通过用户实证研究发现: • 异议性解释(dissenting explanations)可有效降低人类对AI的过度依赖; • 依赖AI编程会显著削弱人类编程技能的形成(skill formation)。 这些贡献通过理论、实证与人本方法的互补路径,为构建兼具内在可信性的AI系统奠定基础——不仅使系统本身可靠,更赋能人类建立理性、适度的信任关系,从而实现技术价值与社会福祉的协同增益。

成为VIP会员查看完整内容
1

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
微信扫码咨询专知VIP会员