MeCabのインストール
Unix系OSへのMeCabのインストールを説明します。
文字コードについて
GETAssocでは、形態素解析器に渡すデータの文字コードをUTF-8に限定しています。そのため、形態素解析器で使用する辞書データもUTF-8で構築されている必要があります。
MeCabの入手
https://taku910.github.io/mecab/ で入手できます。
MeCabのコンパイル、インストール
ソースファイルをダウンロードした後、文字コードをUTF-8に指定してコンパイルします
$ tar zxf mecab-x.xx.tar.gz
$ cd mecab-x.xx
$ ./configure --with-charset=utf8 \
--enable-utf8-only # UTF-8しか使わない場合
$ make
$ sudo make install
辞書のインストール
UTF-8に対応した辞書は複数あります。
NAIST Japanese Dictionary
https://ja.osdn.net/projects/naist-jdic/
現在でもよく使用されている形態素解析用辞書 IPADIC に対して ICOT 条項をクリアするとともに表記ゆれ情報、複合語情報を付与した辞書です。
mecab-naist-jdic-x.x.x-xxxxxxxxをダウンロード後、
$ tar zxf mecab-naist-jdic-x.x.x-xxxxxxxx
$ cd mecab-naist-jdic-x.x.x-xxxxxxxx
$ ./configure --with-charset=utf8
$ make
$ sudo make install
次のようなエラーが出る場合は、
/usr/local/libexec/mecab/mecab-dict-index: error while loading shared
libraries: libmecab.so.1: cannot open shared object file: No such file or directory
こうしてください。
$ sudo ldconfig
/usr/local/etc/mecabrc の dicdir を次のように変更します。
dicdir = /usr/local/lib/mecab/dic/naist-jdic
Unidic
国立国語研究所で規定した「短単位」という揺れがない斉一な単位で設計されています。
MeCab版バイナリ辞書(unidic-mecab????_utf8.tar.gz) をダウンロード後、
$ cd /usr/local/lib/mecab/dic
$ sudo tar zxf unidic-mecab????_utf8.tar.gz
$ sudo mv unidic-mecab????_utf8 unidic
/usr/local/etc/mecabrc の dicdir を次のように変更します。
dicdir = /usr/local/lib/mecab/dic/unidic
stmdに基本形の場所を指示
unidicは、辞書に格納されている品詞情報の並びが異なるため、unidicを使用するときは、stmdのコンパイル時にオプションを追加する必要があります。
$ ./configure ...
--with-mecab-kihon-index=9 # unidic-1.3.11のとき
--with-mecab-kihon-index=12 # unidic-1.3.12のとき
注意点
- バイナリパッケージがすでにあるのだけど…
GETAssocのstmdは、MeCabがインストールされた場所を知るために’‘mecab-config’‘というスクリプトを参照します。そのためFedoraやDebianなどのようにMeCabがパッケージとして用意されている場合でも、パッケージ内に’‘mecab-config’‘を含んでいなければ、独自にインストールした方がよいです。