類似度定義中で使える記号
qを単語のリスト、tを単語、dを記事として説明します。逆に使うときは、記事と単語を読み替えてください。
記号 | 説明 | 実装バージョン |
|q| | 問い合わせベクトルの長さ == (\sum_t TF(t|q)^2)^(1/2) | 1.1 |
|d| | undef. | 1.1 |
|q.tf_idf| | 問い合わせベクトルの長さ == (\sum_t TF-idf(t|q)^2)^(1/2) | 1.1 |
|d.tf_idf| | undef. | 1.1 |
Nq(w) | 全単語数 (異なり) | 1.0 |
Nr(w) | 全文書数 | 1.0 |
DF(w) | DF 合計 | 1.0 |
TF(w) | TF 合計 | 1.0 |
maxDFq(w) | 記事長さの最大値 == max_d(DF(.|d)) | 1.0 |
maxTFq(w) | 記事長さの最大値 == max_d(TF(.|d)) | 1.0 |
maxDFr(w) | 単語 DF の最大値 == max_t(DF(.|t)) | 1.0 |
maxTFr(w) | 単語 TF の最大値 == max_t(TF(.|t)) | 1.0 |
DF(.|q) | 問い合わせベクトルqの長さ(DF), ( == nq) | 1.0 |
TF(.|q) | 問い合わせベクトルqのTF合計 | 1.0 |
DF(.|d) | d の(異なり)長さ (文書 d の異なり単語数) | 1.0 |
TF(.|d) | d の TF 合計 (文書 d に現れる総単語数) | 1.0 |
DF(d&q) | d と問い合わせベクトル q に共通して現れる t の数, | 1.0 |
TF(d&q) | d と問い合わせベクトル q に共通して現れる t の, d での頻度(TF) の合計 | 1.0 |
TF(t|q) | 問い合わせベクトルqに現れる t の q での頻度 (TF) | 1.0 |
#使用不可# DF(t|q) | == 1. (by definition) | 1.0 |
#使用不可# TF-idf(t|q) | == TF(t|q) * log(Nq(w) / DF(.|t)) | 1.0 |
DF(.|t) | 語 t の DF, i.e. 全文書中でこの語がいくつの記事に現れたか | 1.0 |
TF(.|t) | 語 t の TF, i.e. 全文書中でこの語が何回使われたか | 1.0 |
idf(t) | == log1p(Nr(w) / DF(.|t)) | 1.0 |
TF(t|d) | 文書 d 中の t の TF (頻度) | 1.0 |
weight(t|q) | q におけるt の syminfo 構造型の weight メンバへのアクセス | 1.0 |
使用可能な数学関数
acos, acosh, asin, asinh, atan, atanh, atan2, cabs, cbrt, ceil,
copysign, cos, cosh, erf, erfc, exp, expm1, fabs, finite, floor,
fmod, hypot, ilogb, isinf, isnan, j0, j1, jn, lgamma, log, log10,
log1p, nan, nextafter, pow, remainder, rint, scalbn, sin, sinh,
sqrt, tan, tanh, trunc, y0, y1, yn
使用可能な定数
記号 | 定数 |
M_E | e |
M_LOG2E | log 2e |
M_LOG10E | log 10e |
M_LN2 | log e2 |
M_LN10 | log e10 |
M_PI | pi |
M_PI_2 | pi/2 |
M_PI_4 | pi/4 |
M_1_PI | 1/pi |
M_2_PI | 2/pi |
M_2_SQRTPI | 2/sqrt(pi) |
M_SQRT2 | sqrt(2) |
M_SQRT1_2 | 1/sqrt(2) |