具有无后效性的多段决策过程
X
k+1
=T
k
(x
k
, u
k
)
系统从 k 阶段往后的决策只与 k 阶段系统的状态 x
k
有关 , 而
与系统以前的决策无关,则称为具有无后效性的多段决策过
程。
T
1
x
1
x
2
r
1
(x
1
,
u
1
)
u
1
(x
1
)
T
2
x
3
r
2
(x
2
,u
2
)
u
2
(x
2
)
T
k
x
k
x
k+!
r
k
(x
k
,u
k
)
u
k
(x
k
)
T
n
x
n
x
n+1
… …
r
n
(x
n
,u
n
)
u
n
(x
n
)