インストール/Chasenのインストール

Top > インストール > Chasenのインストール

インストール

Unix系OSへのChasenのインストールを説明します。

文字コードについて

GETAssocでは、形態素解析器に渡すデータの文字コードをUTF-8に限定しています。そのため、形態素解析器で使用する辞書データもUTF-8で構築されている必要があります。

Chasenのインストール

GETAssocのstmdは、Chasenのインストール場所を得るためにchasen-configというスクリプトを参照します。そのためFedoraやDebianなどのようにChasenがパッケージとして用意されている場合でも、パッケージ内にchasen-configを含んでいなければ、独自にインストールした方がよいです。

Chasen、Dartsの入手

http://sourceforge.jp/projects/chasen-legacy/
で入手できます。
なお、ChasenのインストールにはDartsが必要です。
http://chasen.org/~taku/software/darts/

Dartsのコンパイル、インストール

# tar xzf darts-0.32.tar.gz
# ./configure
# make
# make install

Chasenのコンパイル、インストール

# tar zxf chasen-2.4.4.tar.gz
# cd chasen-2.4.4
# ./configure
# make 
# make install

辞書のインストール

IPADIC

http://sourceforge.jp/projects/ipadic/
IPADICは文字コードがeuc-jpなので、iconv等でutf-8にする必要があります。

# tar zxf ipadic-2.7.0.tar.gz
# cd ipadic-2.7.0
# ./configure

以下のようなシェルスクリプトを用意します。(参考:http://blog.nomadscafe.jp/archives/000482.html

#!/bin/sh
for file in *.dic *.cha
do
if [ -f $file ]; then
echo $file
iconv -f euc-jp -t utf-8 $file > tmpfile
mv tmpfile $file
fi
done
exit

上記シェルスクリプトを実行して辞書ファイルをUTF-8に変換し生成します。

# sh ./convert.sh
# `chasen-config --mkchadic`/makemat -i w
# `chasen-config --mkchadic`/makeda -i w chadic *.dic
# make install

あわせて、chasenrcもUTF-8に変換します。

# cd /usr/local/etc
# iconv -f euc-jp -t utf-8 chasenrc > chasenrc.tmp
# mv chasenrc.tmp chasenrc

最終更新日: 2014-12-09 (火) 18:25:46 (840d)

このページをブックマーク:

このページのURL(コピペして利用下さい):

TOP