読者です 読者をやめる 読者になる 読者になる

akimachoのはてなブログ

ICTとデザインのためのブログ

黒橋 禎夫『自然言語処理』第4章メモ

機械学習 NLP 読書

はじめに

黒橋 禎夫『自然言語処理』第4章を読みました。

コーパス

  • コーパス(corpus) ― 文書にある種のデータを付与したもの
  • コーパス(raw corpus) ― 単なる文書を集めたもの
  • 対訳コーパス(bilingual corpus)・パラレルコーパス(parallel corpus) ― 翻訳関係にある2言語の文書対を集めたもの
  • コンパラブルコーパス(comparable corpus) ― 同じトピックに関する2言語の文書を集めたもの
  • 注釈付与コーパス(annotated corpus)・タグ付きコーパス(tagged corpus) ― 言語的な解釈を付与したコーパス

wikipedia

言語モデル

言語モデルとは、文や表現の出現確率、つまり文や表現が使われる確からしさを与えるものである。p.51

言語モデルに関しては、高村大也『言語処理のための機械学習入門』p.76に触れられていた。

マルコフモデル

マルコフモデルの考え方を単語の並びに適用したものが、n-gram言語モデル(**n-gram language model)。

データスパースネス

データがスパース(sparse)であると、データ処理がうまくいかなくなってしまう。

高村大也『言語処理のための機械学習入門』p.76が参考になった

おわりに

コーパス自然言語処理の関係について学びました。高村大也『言語処理のための機械学習入門』は良書らしいので、読まないといけない本の1つです。

自然言語処理 (放送大学教材)

自然言語処理 (放送大学教材)

言語処理のための機械学習入門 (自然言語処理シリーズ)

言語処理のための機械学習入門 (自然言語処理シリーズ)