View on GitHub

memo

Theory and Algorithms for Bandit Problems

1 バンディット問題とは

1.4 プレイヤー方策の評価

報酬Xi(i)が全て有界とする。 プレイヤーの方策を評価する指標として以下のようなもの考えることができる。 よく使われるのは、regret, 期待regeret, 擬regretである。

s=1TXi(s)(s) s=1γs1Xi(s)(s) Regret(T;IT):=s=1Tmaxi{1,,K}(Xi(s))s=1TXi(s)(s) Regret(T;IT):=maxi{1,,K}(s=1TXi(s))s=1TXi(s)(s) Regretexpect(T;IT):=E[Regret(T;IT)]=E[maxi{1,,K}(s=1TXi(s))]E[s=1TXi(s)(s)] Regretpseudo(T;IT):=maxi{1,,K}(E[s=1TXi(s)s=1TXi(s)(s)])=maxi{1,,K}(E[s=1TXi(s)])s=1TE[Xi(s)(s)]

Remark

maxが凸関数であることと、Jensen’s inequalityより

Regretexpected(T;IT)Regretpseudo(T;IT)