Moral actions are judged not only by their outcomes but by the context in which they occur. We present COMETH (Contextual Organization of Moral Evaluation from Textual Human inputs), a framework that integrates a probabilistic context learner with LLM-based semantic abstraction and human moral evaluations to model how context shapes the acceptability of ambiguous actions. We curate an empirically grounded dataset of 300 scenarios across six core actions (violating Do not kill, Do not deceive, and Do not break the law) and collect ternary judgments (Blame/Neutral/Support) from N=101 participants. A preprocessing pipeline standardizes actions via an LLM filter and MiniLM embeddings with K-means, producing robust, reproducible core-action clusters. COMETH then learns action-specific moral contexts by clustering scenarios online from human judgment distributions using principled divergence criteria. To generalize and explain predictions, a Generalization module extracts concise, non-evaluative binary contextual features and learns feature weights in a transparent likelihood-based model. Empirically, COMETH roughly doubles alignment with majority human judgments relative to end-to-end LLM prompting (approx. 60% vs. approx. 30% on average), while revealing which contextual features drive its predictions. The contributions are: (i) an empirically grounded moral-context dataset, (ii) a reproducible pipeline combining human judgments with model-based context learning and LLM semantics, and (iii) an interpretable alternative to end-to-end LLMs for context-sensitive moral prediction and explanation.


翻译:道德行为的评判不仅取决于其结果,还取决于其发生的情境。我们提出了COMETH(基于文本输入的道德评估情境组织框架),该框架将概率情境学习器与基于大语言模型(LLM)的语义抽象及人类道德评估相结合,以建模情境如何影响模糊行为的可接受性。我们构建了一个基于实证的数据集,包含六个核心行为(违反“不可杀戮”、“不可欺骗”和“不可违法”)的300个情境,并收集了N=101名参与者的三元判断(谴责/中立/支持)。预处理流程通过LLM过滤器、MiniLM嵌入与K-means聚类对行为进行标准化处理,生成稳健且可复现的核心行为聚类。随后,COMETH通过基于原则性散度准则在线聚类人类判断分布的情境,学习特定行为的道德情境。为泛化并解释预测结果,泛化模块提取简洁、非评估性的二元情境特征,并在基于似然性的透明模型中学习特征权重。实证表明,相对于端到端的LLM提示方法(平均约30%),COMETH与人类多数判断的一致性大约提高了一倍(平均约60%),同时揭示了驱动其预测的情境特征。本研究的贡献包括:(i)一个基于实证的道德情境数据集;(ii)一个结合人类判断、基于模型的情境学习与LLM语义的可复现流程;(iii)一种用于情境敏感的道德预测与解释的可解释替代方案,以替代端到端的LLM方法。

0
下载
关闭预览

相关内容

UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
【NAACL2021】信息解缠正则化持续学习的文本分类
专知会员服务
22+阅读 · 2021年4月11日
【NeurIPS2020】可处理的反事实推理的深度结构因果模型
专知会员服务
49+阅读 · 2020年9月28日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员