1 バンディット問題とは
1.4 プレイヤー方策の評価
報酬
- 累積報酬
- 試行回数が無限の場合には報酬に何らかの仮定が必要
- 幾何割引
- 試行回数が無限の場合に使用することが多い
- 無限級数の収束性を保証するために、
をかける - 無限回の試行をするが、手前の時刻の報酬に重みをおく
- 最適選択肢との差
- 各時刻での最適な選択肢の報酬の和とユーザの選択肢の差
- 差が大きくなりすぎるため、使われないらしい
- そのかわりregretを使う
- regeret
- 同じ選択肢を選び続けたときの累積報酬の最大値とユーザの選択した報酬の差
- 累積報酬、幾何報酬は報酬のスケールに依存するが、最大値からの乖離を見ることでスケールの影響を軽減
- ある時刻
の全ての選択肢の報酬が観測できるとは限らないので、実際にregretを観測できる場合は多くない をユーザの選択肢とすると
- 期待regeret(expected regret)
- regretの期待値
- 理論的に扱いやすい
をユーザの選択肢とすると
- 擬regret(pseudo-regret)
- 同じ報酬を選び続けたときの期待値の和の最大値とユーザの選択した報酬の期待値の和の差
- 理論的に扱いやすい
をユーザの選択肢とすると