全文検索(S)

seek me - 私を探して

なぜGoogleではなく、Yahoo! JAPANか?という記事をハケーンし、触発されて自前のでも調べてみることにしました。リンク先の Perl スクリプトは、日本語の処理や複数キーワードの処理がちょっと不満だったので、さらっと PHP で集計スクリプトを書いてみたものの、遅い。ものすげぇ遅い。こりゃ C で書かなきゃだめか? とか一瞬血迷ったが、PHP や Perl みたいな糞遅いプログラムの中でカウントしたりソートしたりするのがイクナイ。

zcat ログファイル | キーワード抽出 > ファイル
sort ファイル > ファイル
集計 > ファイル
sort > ファイル

つまりはこんな風にシェルスクリプト中心にやればいいのだ。grep とか sort ってほんっとに速いなぁ。GNU ツールとシェルスクリプトのポータビリティすばらしや。

ついでなので、MSN と excite と goo.ne.jp も対象にした。イメージ検索をサポートしているサーチエンジンについては、それも対象にしてみた。googleは、補足しうるかぎりの全ドメイン、Yahoo!は、.jp と .com 、その他は .jp のみである。Yahoo! ディレクトリからのアクセスは対象外としている。いわゆる全角の英数字は半角に変換し、半角のカナは全角に変換してマージしている。google で無視されそうな記号も削ってみた。複数のキーワードは、分解して別々のキーワードとしている。また、ログの前後の行の文字列の類似度を見積もって、リロードなどによる重複と思われるものも可能な限り排除してみた。結果は以下のとおり。

google
検索語件数
1.photoshop4,153
2.着せ替え1,091
3.rgb1,067
4.cg988
5.ガンマ947
6.背景943
7.ガンマ値905
8.グレースケール861
9.輝度826
10.透明717
11.18禁698
12.osakana623
合計52,595
平均8.58
yahoo
検索語件数
1.photoshop5,164
2.着せ替え2,308
3.ロリコン1,587
4.ロリータ1,174
5.イラスト講座1,143
6.講座694
7.イラスト676
8.背景573
9.ガンマ値454
10.描き方447
11.shop423
12.水面422
合計35,921
平均10.78
msn
検索語件数
1.着せ替えゲーム4,821
2.着せ替え1,688
3.ロリcg788
4.ロリ433
5.cg334
6.photoshop275
7.ゲーム237
8.大暮維人152
9.グレースケール142
10.オーバーオール139
11.lolita137
12.ガンマ値104
合計12,522
平均17.71
goo
検索語件数
1.着せ替えゲーム714
2.着せ替え506
3.photoshop151
4.osakana.factory84
5.ロリcg78
6.ロリ64
7.ゲーム52
8.ガンマ値48
9.ガンマ45
10.cg45
11.背景43
12.グレースケール39
合計3,231
平均6.69
excite
検索語件数
1.着せ替え238
2.photoshop50
3.ガンマ29
4.水面21
5.オーバーオール21
6.ペン入れ17
7.水面の描き方14
8.グレースケール14
9.cg13
10.描き方12
11.女の子の着せ替え11
12.初心者運転10
合計948
平均2.84
全体
検索語件数
1.photoshop9,793
2.着せ替え5,831
3.着せ替えゲーム5,535
4.cg1,790
5.背景1,626
6.ロリコン1,587
7.ガンマ値1,517
8.ガンマ1,483
9.グレースケール1,457
10.rgb1,401
11.透明1,229
12.輝度1,200
合計105,252
平均13.15
メタデータ
リクエスト総数20,933,143
統計期間600日
採取できた外部HTTP_REFERER909,039
そのうち上記検索エンジン経由105,252
外部REFERERに対する割合11.58%
全体に対する割合0.50%

MSN が意外に多くてびっくりした。さすが MS の次期コアブランド、順調に洗脳が進んでいるようだ。goo や excite は全然勝負になってない。このサイトに直接関係無い唯一の固有名詞が MSN の「大暮維人」というのはちょっと面白い。全サーチエンジンで上位なのが、「着せ替え」だったというのもちょっと驚き。着せ替えはそんなに求められていたのか。

率直な印象は、「サーチエンジンからくる人ってあんまいないんだなぁ」って感じだなぁ。想像よりずっと少ない。これはつまり来てくれる人が固定化してるってことなのだろうか。アンテナサイトやロボットが発達するとこうなるのかなぁ。時間軸で切ってみるべきだったかもしれないが、十分なサンプル取れないかもしれないなぁ。HTTP_REFERER の採取率は年々下がっているし。あとせっかく載せてもらってる Yahoo! Directory を集計から外したのはもったいなかったかなぁ。

うーん他にはどう読めばいいのかなこのデータ。例えば、それぞれのサーチエンジンの合計に占める 1 位の検索語の割合。Google がダントツに低い。これはつまり、検索語件数の偏差が小さいってことだ。ということは、Google を使う人は、それぞれバラバラの検索語を叩き込んでるってことで、Google から来る人は何かを探そうという明確な目的意識をもっているという印象を裏付ける傍証になってる……のかぁ?

より使えそうな統計として、あるキーワードで訪問してきた人がどの程度滞在したかを調べるというのがあるだろう。多分、非一般的な用語の方がサイト滞在時間が長引く傾向があるだろうなぁ。

(43)

著作者 : 未識 魚
最終更新日 : 2006-09-26 17:58:40


<TOP>

[ Copyright 1996-2023 Mishiki Sakana. Some Rights Reserved. ]