DEV Community

Toru Furukawa
Toru Furukawa

Posted on

入門自然言語処理 pp.199-203

5.2 はタグ付きコーパスの続き。

タグの NN$ のように、$がついているとプロットするときのラベルとしてパースでいないので、雑に削除するコードを昨日書いた。んだけど、これはよくないことに気づく。

読み進めていくと、NN タグは spam のような一般的な名詞、 NN$ タグは spam's のような所有格名詞を表す。

import nltk
tagged_words = nltk.corpus.brown.tagged_words(categories="news")
dist = nltk.FreqDist(tag.replace("$", r"\$") for (word, tag) in tagged_words)
dist.plot()
Enter fullscreen mode Exit fullscreen mode

Top comments (0)