Link

各種制限

以下は理論値です。実際に扱える量は、ハードウェアの制限がかかりますから、もっと少なくなります。

  • 記事数 20億
  • 異なり単語数 20億
  • 単語TF、TF合計 20億 (いずれも、32bit signed int)

TFを64bit signed int にする方法

64bit signed int を使うと、必要となる記憶容量は2倍になりますが、約 800億億 = 800京 まで数えることできます。 GETAssocでは、configure に –enable-tf64=yes を渡TFを64bitにすることができます。 インデックスは32bitのものとは混在できないので、全て作り直してください。

具体例

WebcatPlus?の生データはおよそ6GBで、1千万記事、形態素解析をかけると3百万異なり語となります。これを扱うために、 64bitアーキテクチャ、16GBメインメモリのマシンが8台あれば十分です。

新聞一年分はおよそ10〜20万記事、生データにして200MB程度です。異なり単語が10万語程度だとすると、 32bitCPU、1GBメインメモリのマシン1台で十分扱うことができます。

Windows版特有の制限

32bitアーキテクチャ(Win32 API)のみ対応です。 WAMの分散はできません。