詳細/各種制限

Top > 詳細 > 各種制限

以下は理論値です。実際に扱える量は、ハードウェアの制限がかかりますから、もっと少なくなります。
記事数 20億
異なり単語数 20億
単語TF、TF合計 20億
(いずれも、32bit signed int)

TFを64bit signed int にする方法

64bit signed int を使うと、必要となる記憶容量は2倍になりますが、約 800億億 = 800京 まで数えることできます。

GETAssocでは、configure に --enable-tf64=yes を渡TFを64bitにすることができます。
インデックスは32bitのものとは混在できないので、全て作り直してください。

具体例

WebcatPlus?の生データはおよそ6GBで、1千万記事、形態素解析をかけると3百万異なり語となります。これを扱うために、
64bitアーキテクチャ、16GBメインメモリのマシンが8台あれば十分です。

新聞一年分はおよそ10〜20万記事、生データにして200MB程度です。異なり単語が10万語程度だとすると、
32bitCPU、1GBメインメモリのマシン1台で十分扱うことができます。

Windows版特有の制限

32bitアーキテクチャ(Win32 API)のみ対応です。
WAMの分散はできません。

最終更新日: 2014-12-09 (火) 18:25:46 (931d)

このページをブックマーク:

このページのURL(コピペして利用下さい):

TOP