我们考虑具有需求学习的单个产品的动态定价的文体问题。 候选价格属于广泛的价格区间,需求函数的建模本质上是非参数的,仅施加平滑规律性条件。 我们建模的一个重要方面是预期奖励函数可能是非凸的,实际上是多模态的,这导致了许多概念和技术挑战。 我们提出的算法的灵感来自于多臂老虎机的上限置信度 (UCB) 算法和由线性上下文老虎机产生的乐观面对不确定性 (OFU) 原理。 通过严格的后悔分析,我们证明了我们提出的算法在广泛的平滑函数类上实现了最佳的最坏情况后悔。 更具体地说,对于 k 次平滑函数和 T 卖出期,我们提出的算法的遗憾是 O(T^{(k+1)/(2k+1)}),通过信息理论证明这是最优的界限。 我们还表明,在特殊情况下,例如强凹或无限平滑的奖励函数,我们的算法实现了 O(sqrt{T}) 后悔匹配在以前的工作中建立的最佳后悔。 最后,我们给出了数值结果,验证了我们的方法在数值模拟中的有效性。