動作デモ の変更点

Top > 動作デモ


GETAssocの動作デモは[[gss3 protocol analyzer>http://getassoc.cs.nii.ac.jp/gpa/gss3.html]]をご覧ください。
GETAssocの動作デモは[[gss3 protocol analyzer>http://uxmal.cs.nii.ac.jp/geta_client/gss3.html]]をご覧ください。

#contents

*gss3 protocol analyzer
GETAssocの諸機能を示すクライアントアプリケーションであるとともに、実際のgss3プロトコルを表示し理解するためのツールとなっています。

#ref(http://getassoc.cs.nii.ac.jp/img/gpa.png)
動作例は[[こちら>http://getassoc.cs.nii.ac.jp/gpa/gss3.html]]
動作例は[[こちら>http://uxmal.cs.nii.ac.jp/geta_client/gss3.html]]

gss3 protocal analyzerは、Javascriptを用いて構築されておりWebブラウザがあれば、GETAssocのWebサービス機能を利用できます。Javascript内でXMLを生成、解釈しGETAssocと通信する仕組みとなっています。

**XMLの確認
画面右上にある「Request」「Response」をクリックすれば、gss3プロトコルに従った送信XML、受信XMLを確認することができます。
#ref(http://getassoc.cs.nii.ac.jp/img/gpa_xml.png)
gss3プロトコルの詳細は[[gss3プロトコル]]を、GETAssoc連想検索の動作概念は[[詳細/GETAssocにおける連想計算]]をご覧ください。

*デモに使用したデータベース

** Wikipedia日本語版
[[Wikipedia:データベースダウンロード>http://download.wikimedia.org/jawiki/]]から
jawiki-20090816-pages-articles.xml.bz2 をダウンロードし、本文のみを抽出したものを使用しています。
|文書数 | 538,027 |
|itbファイルサイズ | 約4.6GB |
|データベース作成コマンド|$GETAROOT/wbin/stp -o,-a,3 -b $GETAROOT wikipedia_ja 'title,link,@fss' < wikipedia_ja.itb|
|データベース作成時間|約28分 (Intel Xeon 3.00GHz Quad core)|

連想検索用のフィールドと全文検索用のフィールドで元テキストが重複しているので、元サイズの約2倍となります。

itbファイルの一部

 @description=Wikipedia日本語版 文書・単語行列
 @title=Wikipedia日本語版ドキュメント検索
 i1
 #link=http://ja.wikipedia.org/wiki/アンパサンド
 #title=アンパサンド
 b1アンパサンド (ampersand, &) とは「~と...」を意味する記号である。
 b1英語の "and" に相当するラテン語の "et" の合字で、"etc." を "&c." と記述することがあるのはそのため。
 ...
 !アンパサンド
 !アンパサンド (ampersand, &) とは...
 i2
 #link=...



** 郵便番号データ
日本郵便の[[郵便番号データダウンロード>http://www.post.japanpost.jp/zipcode/download.html]]のページから「住所の郵便番号」をダウンロードし使用しています(本デモのデータは2009年7月18日ダウンロード)。

次に[[Yahoo!JAPANディベロッパーネットワーク>http://developer.yahoo.co.jp/]]のWeb検索APIを利用し、郵便番号をクエリーとしてその検索結果のスニペットを取得しています。具体的には「"060-0000" 住所」というクエリー文字列を投げ、上位50件のスニペットを使用しています。この中から電話番号としてヒットしているものや他の地区の郵便番号を含むスニペットを除外し、その郵便番号に由来する文書してデータベースを作成しています。

|文書数 | 118,775 |
|itbファイルサイズ | 約1.5GB |
|データベース作成コマンド| Wikipedia日本語版と同じ|
|データベース作成時間|約12分 (Intel Xeon 3.00GHz Quad core)|

itbファイルの一部
 @title=郵便番号検索
 i0600000
 #link=http://search.yahoo.co.jp/search?p=%22060-0000%22+住所
 #title=060-0000 北海道札幌市中央区
 b10600000 060-0000 北海道札幌市中央区
 b1郵便番号検索
 b1〒060の検索結果. 59件ヒットしました. 郵便番号. 住所 [MAP] 〒060-0000. 北海道札幌市中央区以下に掲載がない場合 ... 北海道札幌市中央区北一条西(1〜19丁目) 〒060-0002. 北海道札幌市 ...
 ...
 !0600000 060-0000 北海道札幌市中央区
 !郵便番号検索 〒060の検索結果. 59件ヒットしました...

TOP