View on GitHub

memo

Theory and Algorithms for Bandit Problems

1 バンディット問題とは

1.4 プレイヤー方策の評価

報酬$X_{i} (\forall i)$が全て有界とする。 プレイヤーの方策を評価する指標として以下のようなもの考えることができる。 よく使われるのは、regret, 期待regeret, 擬regretである。

\[\sum_{s=1}^{T} X_{i(s)}(s)\] \[\sum_{s=1}^{\infty} \gamma^{s-1}X_{i(s)}(s)\] \[\mathrm{Regret}(T; I_{T}) := \sum_{s=1}^{T} \max_{i \in \{1, \ldots, K\}} \left( X_{i}(s) \right) - \sum_{s=1}^{T} X_{i(s)}(s)\] \[\mathrm{Regret}(T; I_{T}) := \max_{i \in \{1, \ldots, K\}} \left( \sum_{s=1}^{T} X_{i}(s) \right) - \sum_{s=1}^{T} X_{i(s)}(s)\] \[\begin{eqnarray*} \mathrm{Regret}_{\mathrm{expect}}(T; I_{T}) & := & \mathrm{E} \left[ \mathrm{Regret}(T; I_{T}) \right] \\ & = & \mathrm{E} \left[ \max_{i \in \{1, \ldots, K\}} \left( \sum_{s=1}^{T} X_{i}(s) \right) \right] - \mathrm{E} \left[ \sum_{s=1}^{T} X_{i(s)}(s) \right] \end{eqnarray*}\] \[\begin{eqnarray*} \mathrm{Regret}_{\mathrm{pseudo}}(T; I_{T}) & := & \max_{i \in \{1, \ldots, K\}} \left( \mathrm{E} \left[ \sum_{s=1}^{T} X_{i}(s) - \sum_{s=1}^{T} X_{i(s)}(s) \right] \right) \\ & = & \max_{i \in \{1, \ldots, K\}} \left( \mathrm{E} \left[ \sum_{s=1}^{T} X_{i}(s) \right] \right) - \sum_{s=1}^{T} \mathrm{E} \left[ X_{i(s)}(s) \right] \end{eqnarray*}\]

Remark

$\max$が凸関数であることと、Jensen’s inequalityより

\[\mathrm{Regret}_{\mathrm{expected}}(T; I_{T}) \le \mathrm{Regret}_{\mathrm{pseudo}}(T; I_{T})\]