Link

MeCabのインストール

Unix系OSへのMeCabのインストールを説明します。

文字コードについて

GETAssocでは、形態素解析器に渡すデータの文字コードをUTF-8に限定しています。そのため、形態素解析器で使用する辞書データもUTF-8で構築されている必要があります。

MeCabの入手

https://taku910.github.io/mecab/ で入手できます。

MeCabのコンパイル、インストール

ソースファイルをダウンロードした後、文字コードをUTF-8に指定してコンパイルします

$ tar zxf mecab-x.xx.tar.gz
$ cd mecab-x.xx
$ ./configure --with-charset=utf8 \
              --enable-utf8-only  # UTF-8しか使わない場合
$ make 
$ sudo make install

辞書のインストール

UTF-8に対応した辞書は複数あります。

NAIST Japanese Dictionary

https://ja.osdn.net/projects/naist-jdic/

現在でもよく使用されている形態素解析用辞書 IPADIC に対して ICOT 条項をクリアするとともに表記ゆれ情報、複合語情報を付与した辞書です。

mecab-naist-jdic-x.x.x-xxxxxxxxをダウンロード後、

$ tar zxf mecab-naist-jdic-x.x.x-xxxxxxxx
$ cd mecab-naist-jdic-x.x.x-xxxxxxxx
$ ./configure --with-charset=utf8 
$ make
$ sudo make install

次のようなエラーが出る場合は、

/usr/local/libexec/mecab/mecab-dict-index: error while loading shared
libraries: libmecab.so.1: cannot open shared object file: No such file or directory

こうしてください。

$ sudo ldconfig

/usr/local/etc/mecabrc の dicdir を次のように変更します。

dicdir = /usr/local/lib/mecab/dic/naist-jdic

Unidic

https://unidic.ninjal.ac.jp/

国立国語研究所で規定した「短単位」という揺れがない斉一な単位で設計されています。

MeCab版バイナリ辞書(unidic-mecab????_utf8.tar.gz) をダウンロード後、

$ cd /usr/local/lib/mecab/dic
$ sudo tar zxf unidic-mecab????_utf8.tar.gz
$ sudo mv unidic-mecab????_utf8 unidic

/usr/local/etc/mecabrc の dicdir を次のように変更します。

dicdir = /usr/local/lib/mecab/dic/unidic

stmdに基本形の場所を指示

unidicは、辞書に格納されている品詞情報の並びが異なるため、unidicを使用するときは、stmdのコンパイル時にオプションを追加する必要があります。

$ ./configure ...
--with-mecab-kihon-index=9  # unidic-1.3.11のとき
--with-mecab-kihon-index=12 # unidic-1.3.12のとき

注意点

  • バイナリパッケージがすでにあるのだけど…

GETAssocのstmdは、MeCabがインストールされた場所を知るために’‘mecab-config’‘というスクリプトを参照します。そのためFedoraやDebianなどのようにMeCabがパッケージとして用意されている場合でも、パッケージ内に’‘mecab-config’‘を含んでいなければ、独自にインストールした方がよいです。