如:
本例共有 18 个策略,欲从中选出最优策略 ( 路长最短
者 ) 。
• k 子策略: 策略中,从第 k 个决策开始到最后一个
决策所成之子序列。
如:
• 报酬函数 : 一决策对应的“费用”,记为
如:
2
5
第 4 页 / 共 25 页
})(,)(,)(,)({
1412321211
EDxDCxCBxBAx
})(,)(,)(,)({
1411312221
EDxDCxCBxBAx
})(,)(,)({
14113122
EDxDCxCBx
})(,)({
14113
EDxDCx
),(
kkk
xsv
4))(,(
21212
CBxBv
的路程)( ,
21
CB