memo

Theory and Algorithms for Bandit Problems

regretを最小にするような選択肢$I_{T} \in \mathcal{A}_{T}$を決めるのがバンディット問題。

The steps in algorithm

Step1. For each arm $i$, $n_{i} \leftarrow 0$, $m_{i} \leftarrow 0$,
Step2. for $t = 1, \ldots, T$ do
- Step3. Generate sample $\tilde{\mu}_{i}$ from beta distribution $\mathrm{Beta}(\alpha + m_{i}, \beta + n_{i} - m_{i})$ for each arm $i$,
- Step4. $i_{t} \leftarrow \mathop{\rm arg\,max}\limits_{i \in \{1, \ldots, K\}} \tilde{\mu}_{i}$,
- Step5. Observe the reward $X_{i_{t}}(t) \in \{0, 1\}$ from arm $i_{t}$,
- Step6. $n_{i_{t}} \leftarrow n_{i_{t}} + 1$, $m_{i_{t}} \leftarrow m_{i_{t}} + X_{i_{t}}(t)$,
Step7. end for

■