View on GitHub

memo

Summary

Symbols

\[\hat{\mu}_{i}(t) := \frac{1}{N_{i}(t)} \sum_{s=\{1, \ldots t\} : i(s)=i } X_{i}(s)\] \[\begin{eqnarray*} \mathrm{Regret}(T; I_{T}) := \max_{i \in \{1, \ldots, K\}} \left( \sum_{s=1}^{T} X_{i}(s) \right) - \sum_{s=1}^{T} X_{i(s)}(s) \end{eqnarray*}\] \[\begin{eqnarray*} \mathrm{Regret}_{\mathrm{expect}}(T; I_{T}) & := & \mathrm{E} \left[ \mathrm{Regret}(T; I_{T}) \right] \\ & = & \mathrm{E} \left[ \max_{i \in \{1, \ldots, K\}} \left( \sum_{s=1}^{T} X_{i}(s) \right) \right] - \mathrm{E} \left[ \sum_{s=1}^{T} X_{i(s)}(s) \right] \end{eqnarray*}\] \[\begin{eqnarray*} \mathrm{Regret}_{\mathrm{pseudo}}(T; I_{T}) & := & \max_{i \in \{1, \ldots, K\}} \left( \mathrm{E} \left[ \sum_{s=1}^{T} X_{i}(s) - \sum_{s=1}^{T} X_{i(s)}(s) \right] \right) \\ & = & \max_{i \in \{1, \ldots, K\}} \left( \mathrm{E} \left[ \sum_{s=1}^{T} X_{i}(s) \right] \right) - \sum_{s=1}^{T} \mathrm{E} \left[ X_{i(s)}(s) \right] \\ & = & \sum_{s=1}^{T} (\bar{\mu}^{*}(s) - \hat{\mu}_{i_{s}}(s)) \\ & = & \sum_{i \in \{1, \ldots, K\} : \mu_{i}(t) < \mu^{*}(t)} (\bar{\mu}^{*}(s) - \hat{\mu}_{i_{s}}(s)) \end{eqnarray*}\]

summary

バンディット問題とは、きめられた時刻$T \in \mathbb{N}$までの間に、得られる報酬の和を最大にする選択肢の組$I_{T}$を見つける問題である。 得られる報酬の和を最大化せずに、regretと呼ばれる量を考えて、regeretを最小にする選択肢の組を見つける場合が多い。 つまり、以下を求める。

\[\arg \min_{I_{T} \in \mathcal{A}_{T}} \mathrm{Regret}(t; I_{T})\]

ただし、各時刻$t$でのユーザの選択は$t-1$までの選択に依存して決めて良い。

報酬$X_{i}(s)$に対する仮定により問題は以下のように分類される。

確率的バンディットにおいて、$X$の従う確率分布に仮定を置くおくことで、以下の問題が考えられる。

Remark

線形な連続腕バンディット問題も考えることができる。 $i(s) \in \mathcal{A}$, $\theta \in \mathbb{R}^{d}$, $a_{\cdot} : \mathcal{A} \rightarrow \mathbb{R}^{d}$とおくと

\[f(i(s); \theta, \epsilon(s)) := a_{i(s)}^{\mathrm{T}} \theta + \epsilon(t)\]