输入转换。给定一张观察到的图像,智能体首先把图像大小缩放为LxL,然后把图像分割为N个小块,每一个小块都有机会在后续的流程里被注意到
通过自我注意力进行重要性投票。为了确定哪些小块是合适的,智能体会把所有小块都输入到一个自我注意力模块,从每个小块上都获得一个表示了它的重要性的向量,然后从中选出K个重要性最高的小块
小块选择以及特征提取。用一个带有任务知识的f(k)处理这K个小块,从每个小块中分别提取相关的特征;f(k)可以是学习到的模块或者预定义的函数
控制器。智能体把这些特征输入到控制器中,控制器会输出动作,在环境中执行