インストール/Chasenのインストール
Unix系OSへのChasenのインストールを説明します。
文字コードについて
GETAssocでは、形態素解析器に渡すデータの文字コードをUTF-8に限定しています。そのため、形態素解析器で使用する辞書データもUTF-8で構築されている必要があります。
Chasenのインストール
GETAssocのstmdは、Chasenのインストール場所を得るためにchasen-configというスクリプトを参照します。そのためFedoraやDebianなどのようにChasenがパッケージとして用意されている場合でも、パッケージ内にchasen-configを含んでいなければ、独自にインストールした方がよいです。
Chasen、Dartsの入手
http://sourceforge.jp/projects/chasen-legacy/
で入手できます。
なお、ChasenのインストールにはDartsが必要です。
http://chasen.org/~taku/software/darts/
Dartsのコンパイル、インストール
# tar xzf darts-0.32.tar.gz # ./configure # make # make install
Chasenのコンパイル、インストール
# tar zxf chasen-2.4.4.tar.gz # cd chasen-2.4.4 # ./configure # make # make install
辞書のインストール
IPADIC
http://sourceforge.jp/projects/ipadic/
IPADICは文字コードがeuc-jpなので、iconv等でutf-8にする必要があります。
# tar zxf ipadic-2.7.0.tar.gz # cd ipadic-2.7.0 # ./configure
以下のようなシェルスクリプトを用意します。(参考:http://blog.nomadscafe.jp/archives/000482.html)
#!/bin/sh for file in *.dic *.cha do if [ -f $file ]; then echo $file iconv -f euc-jp -t utf-8 $file > tmpfile mv tmpfile $file fi done exit
上記シェルスクリプトを実行して辞書ファイルをUTF-8に変換し生成します。
# sh ./convert.sh # `chasen-config --mkchadic`/makemat -i w # `chasen-config --mkchadic`/makeda -i w chadic *.dic # make install
あわせて、chasenrcもUTF-8に変換します。
# cd /usr/local/etc # iconv -f euc-jp -t utf-8 chasenrc > chasenrc.tmp # mv chasenrc.tmp chasenrc
最終更新日: 2014-12-09 (火) 18:25:46 (1532d)