View on GitHub

memo

Missing Data Analysis

Missing Data Analysis

欠損値を埋める方法のまとめ。 LittleとRudinの方がStandardな本。

欠損値はができる要因は以下。

欠損値の分類として以下のようなものが知られているらしい。 名前の付け方は意味不明だが、

Methods

欠損値を埋める方法として以下の方法が知られている。

Formulation

Remark

Definition. (Missing Completely At Random)

欠損が以下を満たすとき、Missing Completely At Randomという。

\[\begin{equation} p_{M \mid X_{\mathrm{obs}}, X_{\mathrm{mis}}}(m \mid x_{\mathrm{obs}}, x_{\mathrm{mis}}) = p_{M}(m) \label{def_missing_completely_at_random} \end{equation}\]

Definition. (Missing At Random)

欠損が以下を満たすとき、Missing At Randomという。

\[\begin{equation} p_{M \mid X_{\mathrm{obs}}, X_{\mathrm{mis}}}(m \mid x_{\mathrm{obs}}, x_{\mathrm{mis}}) = p_{M \mid X_{\mathrm{obs}}}(m \mid x_{\mathrm{obs}}) \label{def_missing_at_random} \end{equation}\]

Definition. (Not Missing At Random)

MCARでもMARでもないとき、Not Missing At Randomという。

Remark

ML法(尤度推定)とMI法(ベイズ推定)に基づく方法について述べる。 通常のMLとMIの議論と同様2つの手法の違いは、パラメータを確率変数とみなすかどうかのみである。 まず、ML法について述べる。

Maximum Likelihood

\[p_{X_{\mathrm{obs}}}(x_{\mathrm{obs}}; \theta) = \int p_{X_{\mathrm{obs}}, X_{\mathrm{mis}}}(x_{\mathrm{obs}}, x_{\mathrm{mis}}; \theta) \ d x_{\mathrm{mis}}\]

likehood of $\theta$ ignoring the missing data mechanismを以下で定義する。

\[L_{\mathrm{ign}}(\theta; x_{\mathrm{obs}}) := \log \left( p_{X_{\mathrm{obs}}}(x_{\mathrm{obs}}; \theta) \right).\]

ベイズの公式より

\[p_{\bar{X}_{N}, M}(\bar{x}_{N}, m; \theta, \phi) = p_{\bar{X}_{N}}(\bar{x}_{N}; \theta) p_{M \mid \bar{X}_{N}}(\bar{x}_{N}, m; \theta, \phi)\]

とかける。

\[\begin{eqnarray} p_{X_{\mathrm{obs}}, M}(x_{\mathrm{obs}}, m; \theta, \phi) & = & \int p_{X_{\mathrm{obs}, X_{\mathrm{mis}}}, M}(x_{\mathrm{obs}}, x_{\mathrm{mis}}, m; \theta, \phi) \ d x_{\mathrm{mis}} \nonumber \\ & = & \int p_{X_{\mathrm{obs}, X_{\mathrm{mis}}}}(x_{\mathrm{obs}}, x_{\mathrm{mis}}; \theta) p_{M \mid X_{\mathrm{obs}, X_{\mathrm{mis}}}}(m \mid x_{\mathrm{obs}}, x_{\mathrm{mis}}; \theta, \phi) \ d x_{\mathrm{mis}} \label{eq_01} \end{eqnarray}\] \[L_{\mathrm{full}}(\theta, \phi) := \log \left( p_{X_{\mathrm{obs}}, M}(x_{\mathrm{obs}}, m; \theta, \phi) \right)\]

通常の最尤推定と同様に\(L_{\mathrm{full}}\)を最大にする$\theta, \phi$を求める。 特別な場合として、\(L_{\mathrm{ign}}\)と\(L_{\mathrm{full}}\)を独立にとけば良い場合がある。 次の条件を満たすとき独立にとける。

実際、MARの場合は\(\eqref{eq_01}\)と\(\eqref{def_missing_at_random}\)より

\[\begin{eqnarray} p_{X_{\mathrm{obs}}, M}(x_{\mathrm{obs}}, m; \theta, \phi) & = & \int p_{X_{\mathrm{obs}, X_{\mathrm{mis}}}}(x_{\mathrm{obs}}, x_{\mathrm{mis}}; \theta) p_{M \mid X_{\mathrm{obs}, X_{\mathrm{mis}}}}(m \mid x_{\mathrm{obs}}, x_{\mathrm{mis}}; \theta, \phi) \ d x_{\mathrm{mis}} \nonumber \\ & = & \int p_{X_{\mathrm{obs}, X_{\mathrm{mis}}}}(x_{\mathrm{obs}}, x_{\mathrm{mis}}; \theta) p_{M \mid X_{\mathrm{obs}}}(m \mid x_{\mathrm{obs}}; \theta, \phi) \ d x_{\mathrm{mis}} \nonumber \\ & = & p_{M \mid X_{\mathrm{obs}}}(m \mid x_{\mathrm{obs}}; \theta, \phi) \int p_{X_{\mathrm{obs}}, X_{\mathrm{mis}}}(x_{\mathrm{obs}}, x_{\mathrm{mis}}; \theta) \ d x_{\mathrm{mis}} \nonumber \\ & = & p_{M \mid X_{\mathrm{obs}}}(m \mid x_{\mathrm{obs}}; \theta, \phi) p_{X_{\mathrm{obs}}}(x_{\mathrm{obs}}; \theta) \nonumber \\ & = & p_{M}(m; \phi) p_{X_{\mathrm{obs}}}(x_{\mathrm{obs}}; \theta) \end{eqnarray}\]

となる。 最後の不等式は$M$と$X$の独立性による。 よって、$\theta$と$\phi$について独立に最尤方程式をとけば良い。

Maximum Imputation

ML法の議論を各々のparameterが、確率変数だと思ってベイズの議論をすれば良い。 TBD

Example

TBD

Reference

  1. 欠損値があるデータの分析 Sunny side up!
  2. 欠損値 - 機械学習の「朱鷺の杜Wiki」
  3. Book/The Elements of Statistical Learning 9.6節
  4. Graham, J. W. (2009). Missing data analysis: making it work in the real world. Annual Review of Psychology. https://doi.org/10.1146/annurev.psych.58.110405.085530
  5. R.J.A.Little, et al. Statistical Analysis with Missing Data.