動作デモ
Top > 動作デモ
GETAssocの動作デモはgss3 protocol analyzerをご覧ください。
gss3 protocol analyzer
GETAssocの諸機能を示すクライアントアプリケーションであるとともに、実際のgss3プロトコルを表示し理解するためのツールとなっています。
動作例はこちら
gss3 protocal analyzerは、Javascriptを用いて構築されておりWebブラウザがあれば、GETAssocのWebサービス機能を利用できます。Javascript内でXMLを生成、解釈しGETAssocと通信する仕組みとなっています。
XMLの確認
画面右上にある「Request」「Response」をクリックすれば、gss3プロトコルに従った送信XML、受信XMLを確認することができます。
gss3プロトコルの詳細はgss3プロトコルを、GETAssoc連想検索の動作概念は詳細/GETAssocにおける連想計算をご覧ください。
デモに使用したデータベース
Wikipedia日本語版
Wikipedia:データベースダウンロードから
jawiki-20090816-pages-articles.xml.bz2 をダウンロードし、本文のみを抽出したものを使用しています。
538,027 | 538,027 |
約4.6GB | 約4.6GB |
$GETAROOT/wbin/stp -o,-a,3 -b $GETAROOT wikipedia_ja 'title,link,@fss' < wikipedia_ja.itb | $GETAROOT/wbin/stp -o,-a,3 -b $GETAROOT wikipedia_ja 'title,link,@fss' < wikipedia_ja.itb |
約28分 (Intel Xeon 3.00GHz Quad core) | 約28分 (Intel Xeon 3.00GHz Quad core) |
連想検索用のフィールドと全文検索用のフィールドで元テキストが重複しているので、元サイズの約2倍となります。
itbファイルの一部
@description=Wikipedia日本語版 文書・単語行列 @title=Wikipedia日本語版ドキュメント検索 i1 #link=http://ja.wikipedia.org/wiki/アンパサンド #title=アンパサンド b1アンパサンド (ampersand, &) とは「~と...」を意味する記号である。 b1英語の "and" に相当するラテン語の "et" の合字で、"etc." を "&c." と記述することがあるのはそのため。 ... !アンパサンド !アンパサンド (ampersand, &) とは... i2 #link=...
郵便番号データ
日本郵便の郵便番号データダウンロードのページから「住所の郵便番号」をダウンロードし使用しています(本デモのデータは2009年7月18日ダウンロード)。
次にYahoo!JAPANディベロッパーネットワークのWeb検索APIを利用し、郵便番号をクエリーとしてその検索結果のスニペットを取得しています。具体的には「"060-0000" 住所」というクエリー文字列を投げ、上位50件のスニペットを使用しています。この中から電話番号としてヒットしているものや他の地区の郵便番号を含むスニペットを除外し、その郵便番号に由来する文書してデータベースを作成しています。
118,775 | 118,775 |
約1.5GB | 約1.5GB |
Wikipedia日本語版と同じ | Wikipedia日本語版と同じ |
約12分 (Intel Xeon 3.00GHz Quad core) | 約12分 (Intel Xeon 3.00GHz Quad core) |
itbファイルの一部
@title=郵便番号検索 i0600000 #link=http://search.yahoo.co.jp/search?p=%22060-0000%22+住所 #title=060-0000 北海道札幌市中央区 b10600000 060-0000 北海道札幌市中央区 b1郵便番号検索 b1〒060の検索結果. 59件ヒットしました. 郵便番号. 住所 [MAP] 〒060-0000. 北海道札幌市中央区以下に掲載がない場合 ... 北海道札幌市中央区北一条西(1〜19丁目) 〒060-0002. 北海道札幌市 ... ... !0600000 060-0000 北海道札幌市中央区 !郵便番号検索 〒060の検索結果. 59件ヒットしました...
最終更新日: 2014-12-09 (火) 18:25:46 (1530d)