Vector Space model
text documentをvectorとして扱う手法。 類似度はcosine類似度ではかるのが一般的。
- \(M\),
- documentの総数
- \(t\),
- 全documentの単語の総数
- \(d_{j} := (w_{1, j}, \ldots, w_{t, j})\),
- document $j$の単語の列
- 単語がdocument $j$に含まれていれば\(w_{k, j}\)は非ゼロになる
- \(q =\),
- $q$は類似度を測りたいドキュメントないし、検索ワード
この類似度を以下で計測する。
\[s(d_{j}, q) := \frac{ <d_{j}, q> }{ \|d_{j} \| \|q \| }\]