View on GitHub

memo

Chapter2. 文章および単語の数学的表現

2. 文章および単語の数学的表現

文例

Nurture or nature? Nurture passes nature.

2.1 タイプ、トークン

タイプとトークンの文書中の単語の種類。

2.2 nグラム

単語nグラムとは、 隣り合うn単語のこと。 順序は考慮しないので、隣り合うn単語の集合。 接続詞は抜く? nに応じて特別な呼ばれ方をする。

文の最初と最後に意味を持たない記号を付加して、文の最初と最後を明示する場合がある。 例文はbigramでは

{ {B,nurture} {nurture, nature}, {nurture, passess}, {passses, nature} }

文字nグラムは、隣り合うn文字のこと。

2.3 文書、文のベクトル表現

2.3.1 文書のベクトル表現

文書$d$からベクトル$x^{(d)}$を作る。

2.3.2 文のベクトル表現

文書と一緒。

2.4 文書に対する前処理とデータスパースネス問題

2.4.1 文書に対する前処理

英語のstemming

2.4.2 日本語の前処理

2.4.3

2.5 単語のベクトル表現

2.5.1 単語トークンの文脈ベクトル表現

高く 跳ぶ にはまず屈め

2.5.2 単語タイプの文脈ベクトルの表現

単語トークンと同じだが、同じ単語は一つにまとめる

2.6 文書や単語の確率分布による表現

\(p_{W \mid D}\)で文書$D$が与えられた時の、単語$W$の条件付き確率を与える。 確率の与え方は色々ある。 例えば

\[p_{W \mid D}(w \mid d) = \frac{ n(d, w) }{ \sum_{\bar{w}} n(d, \bar{w}) }\]

とおく。 文書間の距離は、KL-divergenceやSJS-divergenceで測ることができる。

2.7 まとめ