memo

Chapter2. 文章および単語の数学的表現

文例

Nurture or nature? Nurture passes nature.

タイプとトークンの文書中の単語の種類。

タイプ(type)、単語タイプ(word type)
- word typeの方が良く使われる
- 同じ単語は、1語と数える
- 単語タイプ数を異なり語数ともいう
- 文例だとタイプは4つ
トークン(token)、単語トークン(word token)
- 同じ単語でも、出現位置が異なれば別の語と数える
- 単語トークン数を延べ語数ともいう
- 文例だとトークンは6つ

単語nグラムとは、隣り合うn単語のこと。順序は考慮しないので、隣り合うn単語の集合。接続詞は抜く？ nに応じて特別な呼ばれ方をする。

文の最初と最後に意味を持たない記号を付加して、文の最初と最後を明示する場合がある。例文はbigramでは

{ {B,nurture} {nurture, nature}, {nurture, passess}, {passses, nature} }

文字nグラムは、隣り合うn文字のこと。

文書$d$からベクトル$x^{(d)}$を作る。

word typeの出現頻度(bag-of-words)
- 頻度ベクトル(frequency vector)
- 語順、文の構造は失われる
- bag-of-wordsの変種が良く使われる
word typeの出現頻度(bag-of-n gram)
- n gramの出現頻度
word typeの出現有無
- 出現したら1,しなければ0
単語辞書をあらかじめもっておき、出現判定をする
一般に疎なベクトルになる

文書と一緒。

ストップワード(stop word)
- 文書の話題と関係ない語
- theとかどんな文書にもでるisとか
- 話題において重要でない語
- 削除する
ステミング(stemming)
- run, ran, runningなどを派生語とみなす
- 日本語の場合は活用形を同じ単語とみなすなど
- 難しいので一般にルールベース
見出し語化(lemmatization)
- run, runsなどを基本形に戻すこと
- 日本語だと動詞の派生語を戻す
品詞タグ付け
- flyは動詞では飛ぶ、名詞ではハエ
- 単語を品詞込で区別すること
語義の曖昧性解消(word sense disambiguation)
- 品詞でも区別できない語がある
- bankは銀行、土手の意味がある

英語のstemming

Poter’s stemming
- 語尾のedを削除
  - hundredなどは不要に語が削られる
- 語尾のateを削除
- 語尾のationalを削除

高く跳ぶにはまず屈め

単語トークンと同じだが、同じ単語は一つにまとめる

$p_{W \mid D}$で文書$D$が与えられた時の、単語$W$の条件付き確率を与える。確率の与え方は色々ある。例えば

\[p_{W \mid D}(w \mid d) = \frac{ n(d, w) }{ \sum_{\bar{w}} n(d, \bar{w}) }\]

とおく。文書間の距離は、KL-divergenceやSJS-divergenceで測ることができる。