View on GitHub

memo

Chapter2-05. Conditional probability distribution

2.5 Conditional Probability Distribution

Theorem 2.5.1

このとき、$\forall t \in $について、$P(\cdot \mid T = t): \mathcal{A} \rightarrow [0,1]$が存在して、$P(\cdot \mid T = t)$は\((\mathcal{X}, \mathcal{A})\)上の確率測度になる

proof.

一般性をかかず、\(\mathcal{X} = \mathbb{R}^{n}\)とする。 実際、\(\mathcal{X} \neq \mathbb{R}^{n}\)とし、\(\mathbb{R}^{n}\)上$P$が定理の主張を満たすmeasureとする。 このとき、\(Q(A) := P(A \cap \mathcal{X})\ (A \in \mathcal{B}(\mathbb{R}^{n}))\)とおけば$Q$はmeasureなので$Q(\cdot \mid T = t)$が存在する。 \(P(A \mid T = t) := Q(A \cap \mathcal{X}\)とおけば、定理の条件を満たす。

簡単のため、$n = 1$とおく。 $x \in \mathcal{X}$について、

\[F(x, t) := P((-\infty, x] \mid T = t) \ t\text{-a.e.}\]

とおく。 このとき、右辺は$x$に依存したnull set$N_{x}$をもつ。 \(\mathbb{Q} = (r_{i})_{i \in \mathbb{N}}\)として \(A_{i} := (-\infty, r_{i}]\)とおけば以下が成り立つ。 $P^{T}$上のあるnull set$N$が存在して、$\forall t \in N$について、

\[\begin{eqnarray} & & 0 \le P(A_{i} \mid T = t) \le 1 \quad (\forall i) \\ & & (A_{i_{k}})_{k}: \mathrm{disjoint} \Rightarrow P(\sum_{k} A_{i_{k}} \mid T = t) = \sum_{k}P(A_{i_{k}} \mid T = t) \\ & & A_{i} \subseteq A_{j} \Rightarrow P(A_{i} \mid T = t) \le P(A_{j} \mid T = t) \end{eqnarray}\]

実際、\(N := \bigcup_{k \in \mathbb{N}} N_{r_{k}}\)とおけば良い。 また、以下が成り立つ。 あるnull set$N$が存在して、$\forall \in N^{c}$について、

\[\begin{eqnarray} & & r_{i} \le v_{j} \Rightarrow F(r_{i}, t) \le F(v_{j}, t) \\ & & r \in \mathbb{Q} \ (s_{n})_{n \in \mathbb{N}} \subset \mathbb{Q}, \ s_{n} \searrow r, \ \Rightarrow F(s_{n}, t) = F(r, t) \end{eqnarray}\]

実際、

\[\begin{eqnarray} 0 & \le & \lim_{n \rightarrow \infty} F(s_{n}, t) - F(r, t) \nonumber \\ & = & \lim_{n \rightarrow \infty} P((r, s_{n}]) \nonumber \\ & \le & P(\lim \sup (r, s_{n}])) \nonumber \\ & = & P(\emptyset) = 0 \end{eqnarray}\]

となる。 上記により、$t \notin N$について$F(\cdot, t)$は$\mathbb{Q}$上右連続、非単調減少である。 $\forall t \notin N$について、$F(\cdot, t)$を$\mathbb{R}$上に拡張できる。

\[F^{*}(x, t) := \lim_{r \searrow x, r \in \mathbb{Q}} F(r, t) \ (x \in \mathbb{R})\]

この\(F^{*}\)についても、$t \notin N$について

\[\begin{eqnarray} & & x \le y \Rightarrow F^{*}(x, t) \le F^{*}(y, t) \\ & & \lim_{x \rightarrow a} F^{*}(x, t) = F^{*}(a, t) \\ & & \lim_{x \rightarrow -\infty} F^{*}(x, t) = 0, \ \lim_{x \rightarrow \infty} F^{*}(x, t) = 1, \end{eqnarray}\]

が成立する。 実際、$\epsilon > 0$とすると、

\[\exists \delta > 0, \ \forall r \in \mathbb{Q}, \ \mathrm{s.t. } a \le r < a + \delta \Rightarrow | F^{*}(a, t) - F(r, t) | \le \epsilon\]

である。 ここで、$x \in \mathbb{R}$,$a < x < a + \delta$とすれば $\exists l \in \mathbb{Q}$ s.t. $x < l < a + \delta$が存在するから、

\[l \in \mathbb{Q} \mathrm{ s.t. } | F^{*}(x, t) - F(l, t) | \le \epsilon\]

とおけば、

\[\begin{eqnarray} |F^{*}(a, t) - F^{*}(x,t)| & = & |F^{*}(a, t) - F(l,t) + F(l, t) - F^{*}(x,t)| \nonumber \\ & \le & 2\epsilon \end{eqnarray}\]

上の3条件から\(F^{*}\)は分布関数になる。 よって、一意な確率測度\(P^{*}(\cdot \mid T=t)\)が存在して\(F^{*}(\cdot, t)\)が分布関数となる。 後は以下を示す。

\[P^{*}(\cdot \mid T = t) = P(\cdot \mid T = t) \ t\text{-a.e.}\]

これを示すには、一致の定理より$t$-a.e.でいかが成り立つことを示せば良い。

\[\begin{eqnarray} & \Leftrightarrow & P^{*}((-\infty, a] \mid T = t) = P((-\infty, a] \mid T = t) \ \forall a \in \mathbb{R} \nonumber \\ & \Leftrightarrow & F^{*}(a, t) = F(a, t) \ \forall a \in \mathbb{R} \end{eqnarray}\]

これは$\mathbb{Q}$上では明らかに成り立つ。 $a \notin \mathbb{Q}$については$a_{n} \searrow a$なる$a_{n} \in \mathbb{Q}$の列をとれば、$F$の右連続性より成り立つ。

$\Box$

Notationとして以下を定義する。

$P^{X \mid T = t}: \mathcal{A} \rightarrow [0, 1]$を$P^{X}$の$T=t$での条件付き確率とする。

\[P^{X \mid T = t}(\cdot) = P^{X}(\cdot \mid T = t)\]

Thereom 2.5.2

このとき以下が成り立つ。

\[\mathrm{E}^{P^{X}} \left[ f \mid T = t \right] = \int f(x) \ d P^{X \mid T = t}(x) \quad t \text{-a.e.} \ (\mathcal{B}, P^{T})\]

proof.

$f$が定義関数のときは、Theorem 2.5.2による。 $f$を階段関数で近似すれば、期待値の線形性とMonotone convergence theoremより成り立つ。

$\Box$

Theorem 2.5.3

Then $\exists N$: null set such that $\forall t \notin N$, $\exists P^{X \mid T =t}$: conditional probabiilty measure which satisfies

\[\begin{eqnarray} \mathrm{E}^{P^{X}} \left[ \left. f \right| T = t \right] & = & \int f(x) \ d P^{X \mid T = t}(x) \nonumber \\ \mathrm{E}^{P^{X}} \left[ \left. h \circ T f \right| T = t \right] & = & h(t) \mathrm{E}^{P^{X}} \left[ \left. f \right| T = t \right] \end{eqnarray}\]

proof.

W.l.o.g. we assume $\mathcal{T} \subseteq \mathbb{R}$, therefore to the previous theorem we attain $P^{X \mid T = t}$ in the bi. Let $B \in \mathcal{B}$ then it holds that

\[\{ T \in B\} \in \sigma[T]\] \[\begin{eqnarray} \mathrm{E}^{P^{X}} \left[ \left. 1_{T \in B} \right| T = t \right] & = & 1_{B}(t) \nonumber \\ P^{X \mid T = t}(T^{-1}(B)) = 1_{B}(t) \ t \text{-a.e.} \end{eqnarray}\] \[\mathcal{C} := \{ (a, b] \mid a, b \in \mathbb{Q} \}\]

Since \(\# \mathcal{C} = \# \mathbb{N}\), we can constract such a null set $N$ that for $\forall t \notin N$,

\[P^{X \mid T = t}(T^{-1}(B)) = 1_{B}(t) \ (\forall B \in \mathcal{B})\]

Since both sides can be regarded as mean w.r.t. $B \in \mathcal{B}$. We obtain

\[P^{X \mid T = t}(T = t) = P^{X \mid T = t}(T^{-1}(\{ t\})) = 1_{\{t\}}(t) = 1\]

Consequentlly, we have obtained

\[\mathrm{E}^{P^{X \mid T = t}} \left[ \left. h(T) \right| T = t \right] = \int h(T(x)) f(x) \ d P^{X \mid T = t}(dx) = \int_{\{T = t\}} h(T(x)) f(x) \ d P^{X \mid T =t}(x) = h(t) \int_{\{T = t\}} f \ d P^{X \mid t}(x)\]
$\Box$

In 1.9, the cond. prob. dist’s are defined over \(\{T = t \}\) rather than the entire sp. $\mathcal{X}$ and in this sense $P^{X \mid T = t}$, defined perivously, differs from them. Howerver sincd

\[P^{X \mid T = t}(A) = P^{X \mid T = t}(A \cap \{T = t\})\]

Lemma 2.5.1

ここで\(P_{1}\)が\((\mathcal{X}, \mathcal{A})\)の分布で

\[dP_{1}(t, y) = a(y)b(t) dP_{0}(t, y)\]

が存在するとする。 ここで、\(\forall y, a(y) > 0\)とする。 このとき、\(P_{1}\)のもと、$T$と、$t$を与えたもとでの、\(Y\)の条件付き分布のversionは以下で与えられる。

\[d P_{1}^{T}(t) = b(t) \left[ \int a(y) \ d P_{0}^{Y \mid t}(y) \right] d P_{0}^{T}(t)\] \[dP_{1}^{Y \mid t} = \frac{ a(y) dP_{0}^{Y \mid t}(y) }{ \int a(y^{\prime}) \ d P_{0}^{Y \mid t}(y^{\prime}) }.\]

proof.

$\Box$