人们经常坚持做一些理智上知道对他们不再有好处的事情。他们漫不经心地走自己的老路去上班,尽管他们知道那条路因施工而关闭,或者拿起早晨的咖啡,尽管他们正在努力戒除咖啡因。这些持续的行为往往被贴上了习惯的标签,而当代理论(contemporary theory)在描述它们背后的计算认知机制方面取得了巨大成功。特别是,关于无模型强化学习的工作表明,习惯是如何从行动和奖励之间的直接关联中产生的(例如,通过过去的行动经验计算出的 "早上去喝咖啡=++"这样的表述)。
然而,对习惯的计算性描述在一个关键方面是缺乏的。直观地说,人们不只是坚持外部的行动,比如早上去喝咖啡。他们也坚持内部的、认知的模式。例如,一个人可能会形成幻想咖啡的习惯,或者计划如何得到她的下一杯咖啡。尽管这些 "思维习惯 "据称对人们的精神生活很重要,但它们在关于习惯的计算性描述中却明显缺乏。这些描述通常把习惯的形成归结为简单的运动动作(比如拉杆)或外部选择(比如在实验室决策任务中选择按钮),而没有研究更多内部的、抽象的认知操作类型的习惯(比如设定买咖啡的目标)。
这篇论文填补了这一空白。在这里,证明了人们在得到奖励后会灵活地坚持两种类型的内部认知行动--设定一个要追求的目标(第一章)和产生一个要考虑的决策选项(第二章),即使这些奖励已知与当前环境无关。将这些模式正式建模为对内部操作的无模型强化学习,并表明思维习惯可以发挥有用的功能。它们通过缩小范围并将其引向少数有希望的路径,帮助使基于模型的规划变得可行。最后,还发现,有些认知行动并没有表现出这种思维习惯。在我们的实验中(第三章),人们并没有采用无模型强化学习来选择分块的行动序列(例如,在心理上将按下的按钮序列作为一个单元分块),而是只使用基于模型的规划来选择序列。总之,这项工作提供了一个可以支撑思维习惯的认知机制的精确说明;严格地证明了这种习惯的存在;提出了它们的适应性功能;并开始绘制它们的边界条件。