Link

類似度定義中で使える記号

qを単語のリスト、tを単語、dを記事として説明します。逆に使うときは、記事と単語を読み替えてください。

記号 説明 実装バージョン
|q| 問い合わせベクトルの長さ == (\sum_t TF(t|q)^2)^(1/2) 1.1
|d| undef. 1.1
|q.tf_idf| 問い合わせベクトルの長さ == (\sum_t TF-idf(t|q)^2)^(1/2) 1.1
|d.tf_idf| undef. 1.1
Nq(w) 全単語数 (異なり) 1.0
Nr(w) 全文書数 1.0
DF(w) DF 合計 1.0
TF(w) TF 合計 1.0
maxDFq(w) 記事長さの最大値 == max_d(DF(.|d)) 1.0
maxTFq(w) 記事長さの最大値 == max_d(TF(.|d)) 1.0
maxDFr(w) 単語 DF の最大値 == max_t(DF(.|t)) 1.0
maxTFr(w) 単語 TF の最大値 == max_t(TF(.|t)) 1.0
DF(.|q) 問い合わせベクトルqの長さ(DF), ( == nq) 1.0
TF(.|q) 問い合わせベクトルqのTF合計 1.0
DF(.|d) d の(異なり)長さ (文書 d の異なり単語数) 1.0
TF(.|d) d の TF 合計 (文書 d に現れる総単語数) 1.0
DF(d&q) d と問い合わせベクトル q に共通して現れる t の数, 1.0
TF(d&q) d と問い合わせベクトル q に共通して現れる t の, d での頻度(TF) の合計 1.0
TF(t|q) 問い合わせベクトルqに現れる t の q での頻度 (TF) 1.0
#使用不可# DF(t|q) == 1. (by definition) 1.0
#使用不可# TF-idf(t|q) == TF(t|q) * log(Nq(w) / DF(.|t)) 1.0
DF(.|t) 語 t の DF, i.e. 全文書中でこの語がいくつの記事に現れたか 1.0
TF(.|t) 語 t の TF, i.e. 全文書中でこの語が何回使われたか 1.0
idf(t) == log1p(Nr(w) / DF(.|t)) 1.0
TF(t|d) 文書 d 中の t の TF (頻度) 1.0
weight(t|q) q におけるt の syminfo 構造型の weight メンバへのアクセス 1.0

使用可能な数学関数

acos, acosh, asin, asinh, atan, atanh, atan2, cabs, cbrt, ceil,
copysign, cos, cosh, erf, erfc, exp, expm1, fabs, finite, floor,
fmod, hypot, ilogb, isinf, isnan, j0, j1, jn, lgamma, log, log10, 
log1p, nan, nextafter, pow, remainder, rint, scalbn, sin, sinh,
sqrt, tan, tanh, trunc, y0, y1, yn

使用可能な定数

記号 定数
M_E e
M_LOG2E log 2e
M_LOG10E log 10e
M_LN2 log e2
M_LN10 log e10
M_PI pi
M_PI_2 pi/2
M_PI_4 pi/4
M_1_PI 1/pi
M_2_PI 2/pi
M_2_SQRTPI 2/sqrt(pi)
M_SQRT2 sqrt(2)
M_SQRT1_2 1/sqrt(2)