The rapid advancement and adaptability of Large Language Models (LLMs) highlight the need for moral consistency, the capacity to maintain ethically coherent reasoning across varied contexts. Existing alignment frameworks, structured approaches designed to align model behavior with human ethical and social norms, often rely on static datasets and post-hoc evaluations, offering limited insight into how ethical reasoning may evolve across different contexts or temporal scales. This study presents the Moral Consistency Pipeline (MoCoP), a dataset-free, closed-loop framework for continuously evaluating and interpreting the moral stability of LLMs. MoCoP combines three supporting layers: (i) lexical integrity analysis, (ii) semantic risk estimation, and (iii) reasoning-based judgment modeling within a self-sustaining architecture that autonomously generates, evaluates, and refines ethical scenarios without external supervision. Our empirical results on GPT-4-Turbo and DeepSeek suggest that MoCoP effectively captures longitudinal ethical behavior, revealing a strong inverse relationship between ethical and toxicity dimensions (correlation rET = -0.81, p value less than 0.001) and a near-zero association with response latency (correlation rEL approximately equal to 0). These findings demonstrate that moral coherence and linguistic safety tend to emerge as stable and interpretable characteristics of model behavior rather than short-term fluctuations. Furthermore, by reframing ethical evaluation as a dynamic, model-agnostic form of moral introspection, MoCoP offers a reproducible foundation for scalable, continuous auditing and advances the study of computational morality in autonomous AI systems.


翻译:大语言模型(LLMs)的快速发展和适应性凸显了道德一致性的必要性,即在不同情境中保持伦理推理连贯性的能力。现有的对齐框架——旨在使模型行为与人类伦理及社会规范保持一致的结构化方法——通常依赖于静态数据集和事后评估,难以揭示伦理推理在不同情境或时间尺度上的演变。本研究提出道德一致性管道(MoCoP),一种无需数据集、闭环的框架,用于持续评估和解释LLMs的道德稳定性。MoCoP在一个自维持架构中整合了三个支持层:(i)词汇完整性分析,(ii)语义风险估计,以及(iii)基于推理的判断建模,该架构能够自主生成、评估和优化伦理场景,无需外部监督。我们在GPT-4-Turbo和DeepSeek上的实证结果表明,MoCoP能有效捕捉纵向伦理行为,揭示了伦理维度与毒性维度之间的强负相关关系(相关系数rET = -0.81,p值小于0.001),以及与响应延迟近乎零的关联(相关系数rEL约等于0)。这些发现表明,道德一致性和语言安全性往往作为模型行为的稳定且可解释的特征出现,而非短期波动。此外,通过将伦理评估重新定义为一种动态、模型无关的道德内省形式,MoCoP为可扩展的持续审计提供了可复现的基础,并推动了自主AI系统中计算道德学的研究进展。

0
下载
关闭预览

相关内容

PlanGenLLMs:大型语言模型规划能力的最新综述
专知会员服务
32+阅读 · 5月18日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员