View on GitHub

memo

Theory and Algorithms for Bandit Problems

3 確率的バンディット問題の方策

regretを最小にするような選択肢$I_{T} \in \mathcal{A}_{T}$を決めるのがバンディット問題。

3.1 定式化

3.2 理論限界

3.3 $\epsilon$-貪欲法

3.4 尤度に基づく方策

3.5 確率一致方法とトンプソン抽出

3.5.2 Thompson Sampling

Algorithm 3.4

The steps in algorithm