インストール/MeCabのインストール

Top > インストール > MeCabのインストール

インストール

Unix系OSへのMeCab?のインストールを説明します。

文字コードについて

GETAssocでは、形態素解析器に渡すデータの文字コードをUTF-8に限定しています。そのため、形態素解析器で使用する辞書データもUTF-8で構築されている必要があります。

MeCab?の入手

http://mecab.sourceforge.net/
で入手できます。

MeCab?のコンパイル、インストール

ソースファイルをダウンロードした後、文字コードをUTF-8に指定してコンパイルします

$ tar zxf mecab-x.xx.tar.gz
$ cd mecab-x.xx
$ ./configure --with-charset=utf8 \
              --enable-utf8-only  # UTF-8しか使わない場合
$ make 
$ sudo make install

辞書のインストール

UTF-8に対応した辞書は複数あります。

NAIST Japanese Dictionary

http://sourceforge.jp/projects/naist-jdic/
現在でもよく使用されている形態素解析用辞書 IPADIC に対して ICOT 条項をクリアするとともに表記ゆれ情報、複合語情報を付与した辞書です。

mecab-naist-jdic-x.x.x-xxxxxxxxをダウンロード後、

$ tar zxf mecab-naist-jdic-x.x.x-xxxxxxxx
$ cd mecab-naist-jdic-x.x.x-xxxxxxxx
$ ./configure --with-charset=utf8 
$ make
$ sudo make install

次のようなエラーが出る場合は、

/usr/local/libexec/mecab/mecab-dict-index: error while loading shared
libraries: libmecab.so.1: cannot open shared object file: No such file
or directory

こうしてください。

$ sudo ldconfig

/usr/local/etc/mecabrc の dicdir を次のように変更します。

dicdir = /usr/local/lib/mecab/dic/naist-jdic

Unidic

http://www.tokuteicorpus.jp/dist/
国立国語研究所で規定した「短単位」という揺れがない斉一な単位で設計されています。

MeCab?版バイナリ辞書(unidic-mecab????_utf8.tar.gz) をダウンロード後、

$ cd /usr/local/lib/mecab/dic
$ sudo tar zxf unidic-mecab????_utf8.tar.gz
$ sudo mv unidic-mecab????_utf8 unidic

/usr/local/etc/mecabrc の dicdir を次のように変更します。

dicdir = /usr/local/lib/mecab/dic/unidic

stmdの変更

unidicは、辞書に格納されている品詞情報の並びが異なるため、unidicを使用するときは、stmdのコンパイル時にオプションを追加する必要があります。

$ ./configure ...
--with-mecab-kihon-index=9  # unidic-1.3.11のとき
--with-mecab-kihon-index=12 # unidic-1.3.12のとき

注意点

バイナリパッケージがすでにあるのだけど...

GETAssocのstmdは、MeCab?がインストールされた場所を知るためにmecab-configというスクリプトを参照します。そのためFedoraやDebianなどのようにMeCab?がパッケージとして用意されている場合でも、パッケージ内にmecab-configを含んでいなければ、独自にインストールした方がよいです。

最終更新日: 2014-12-09 (火) 18:25:46 (840d)

このページをブックマーク:

このページのURL(コピペして利用下さい):

TOP