多目标广义线性强盗问题(Multi-Objective Generalized Linear Bandits,MOG)是一类在线学习问题,在此类问题中,学习者重复选择一个“臂”(arm)进行操作,并根据选择的臂接收一个包含多个目标的奖励向量。这类问题在现实世界中有广泛的应用,例如在线推荐和网络路由。然而,这些问题通常包含可以指导学习过程的情境信息,但大多数现有研究忽略了这一点。为了利用这些信息,研究者为每个臂分配了一个情境向量,并假设奖励遵循广义线性模型(Generalized Linear Model,GLM)。研究者采用Pareto遗憾的概念来评估学习者的性能,并开发了一种新颖的算法来最小化它。提出的算法基于在线牛顿步(Online Newton Step)的变体来估计模型参数,然后利用上限置信界(Upper Confidence Bound,UCB)策略来构造Pareto前沿的近似,并从近似Pareto前沿中均匀随机选择一个臂。理论分析表明,提出的算法实现了与单目标情境强盗问题最优结果匹配的Pareto遗憾,时间复杂度为~O(dpT),其中T是时间范围,d是情境的维度。数值实验表明了所提方法的有效性。
在介绍中,研究者提到在线学习在各种应用中是一个强大的范式,例如在医疗试验、广告投放和网络路由等场景中出现的顺序决策问题。经典的随机多臂强盗问题中,学习者每次首先选择一个臂进行操作,然后根据所选臂获得一个奖励,奖励是未知概率分布但固定的。学习者的目的是最小化遗憾,遗憾定义为期望奖励和实际获得奖励之间的差异。MOG问题将这种设置扩展到多目标,学习者必须从多维奖励空间中进行选择,并将这些奖励视为多个目标。
研究者强调了将情境信息整合进学习过程的重要性。他们通过为每个臂分配一个情境向量来实现这一点,这样学习者在选择臂的时候可以利用情境信息来优化其决策。所使用的情境信息可以是任意维度的,例如,如果是在推荐系统中,情境信息可以包括用户过去的偏好、当前环境情况或时间段等。
在此基础上,研究者提出了一种新颖的算法,该算法的理论基础是广义线性模型(GLM)。这个模型允许将奖励表示为某些基函数的线性组合,这些基函数依赖于情境向量和臂的特定特征。通过这种方式,算法可以利用这些信息来预测奖励值,并选择最有可能产生最优奖励向量的臂。
在Pareto前沿的框架下,研究者还引入了Pareto遗憾的概念来衡量学习者的性能。Pareto前沿代表了在给定目标的权衡下可能获得的所有最优奖励向量的集合。如果一个奖励向量在Pareto前沿上,那么没有其他的奖励向量在所有目标上都严格优于它。学习者的目标就是最小化其选择的奖励向量与Pareto前沿之间的差距。
所提出的算法采用在线牛顿步的变体来估计模型参数,这种方法特别适用于处理广义线性模型。在线牛顿步是一种有效的在线学习方法,它对模型参数进行实时更新,以适应新数据并优化性能。通过这种方法,学习者能够根据不断变化的情境和奖励进行调整。
结合上限置信界(UCB)策略,算法构建了Pareto前沿的近似,并利用它来选择行动。UCB策略是一种探索与利用权衡的策略,它在选择行动时考虑了行动的潜在价值和不确定性。在此背景下,算法使用UCB策略来估计每个行动的潜在价值,并选择最有可能在Pareto前沿上获得最佳奖励的行动。
这篇文章的贡献在于提出了一种新颖的多目标广义线性强盗问题算法,并在理论上证明了该算法的性能与单目标情境强盗问题的最优结果相匹配。此外,通过数值实验验证了所提出方法的有效性。这些成果不仅推动了在线学习和多目标决策问题的研究,也为诸如在线推荐系统和网络路由等实际应用领域提供了新的算法工具。