序贯决策制定是机器学习应用中的自然模型,学习者需实时进行在线决策,并通过序列数据学习以优化未来决策。经典研究聚焦于两类问题变体:基于随机或对抗性数据分布的场景,以及基于学习者可获得的部分或完整反馈的设定。随着大型在线市场的兴起,序贯学习方法日益应用于复杂多智能体系统,其中智能体可能采取策略性行为以实现自身目标。这为序贯决策问题增添了新维度——学习者须考量战略智能体的行为模式(这些智能体可能试图引导其未来决策以符合自身利益)。本论文旨在从双重视角设计有效的在线决策算法:一是面向需在战略智能体与有限反馈环境中学习的系统设计者;二是寻求优化自身目标的战略智能体。
第一部分聚焦重复拍卖场景,设计拍卖方能在战略竞拍者存在下有效学习的机制,并反向探讨智能体如何在重复拍卖中竞价或实施数据投毒攻击以最大化自身收益。第二部分研究反馈获取成本高昂的在线学习场景,提出受主动学习技术启发的算法——通过将少量信息量更高的样本提前处理,使学习者在仅对极少量数据点查询反馈的情况下,达到与最优在线算法相当的决策性能。第三部分针对随机多臂老虎机问题提出新学习目标,旨在促进个体与群体基于能力的公平机会分配。