Natural Language Processing
- BLEU point
- BiLingual Evaluation Understudy
- BLEU - Wikipedia
- Machine translationの論文で性能指標としてよく使われる
Stemming
- runningなどの品詞をrunなどになおす
- Porter stemming
- Snowball stemming (Porter2 or English stemming)
stop-word removal
and, is, has
などを削除- 簡易的な日本語ストップワードの取得メソッド - test.py
http://svn.sourceforge.jp/svnroot/slothlib/CSharp/Version1/SlothLib/NLP/Filter/StopWord/word/Japanese.txt
TF-IDF
- TFはdoumentに現れる単語の頻度
- IDFは全部のdocumentに単語が現れた比率の逆数
- 多くの文書に出てる単語は重要でない
Preprocessing
Best practice
- Data preparation for doc2vec - Google Groups
- 自然言語処理における前処理の種類とその威力 - Qiita
- Python3×日本語:自然言語処理の前処理まとめ - Qiita
- Regexp.ja · neologd/mecab-ipadic-neologd Wiki
- sentencepiece/normalization.md at master · google/sentencepiece