なぜGoogleではなく、Yahoo! JAPANか?という記事をハケーンし、触発されて自前のでも調べてみることにしました。リンク先の Perl スクリプトは、日本語の処理や複数キーワードの処理がちょっと不満だったので、さらっと PHP で集計スクリプトを書いてみたものの、遅い。ものすげぇ遅い。こりゃ C で書かなきゃだめか? とか一瞬血迷ったが、PHP や Perl みたいな糞遅いプログラムの中でカウントしたりソートしたりするのがイクナイ。
sort ファイル > ファイル
集計 > ファイル
sort > ファイル
つまりはこんな風にシェルスクリプト中心にやればいいのだ。grep とか sort ってほんっとに速いなぁ。GNU ツールとシェルスクリプトのポータビリティすばらしや。
ついでなので、MSN と excite と goo.ne.jp も対象にした。イメージ検索をサポートしているサーチエンジンについては、それも対象にしてみた。googleは、補足しうるかぎりの全ドメイン、Yahoo!は、.jp と .com 、その他は .jp のみである。Yahoo! ディレクトリからのアクセスは対象外としている。いわゆる全角の英数字は半角に変換し、半角のカナは全角に変換してマージしている。google で無視されそうな記号も削ってみた。複数のキーワードは、分解して別々のキーワードとしている。また、ログの前後の行の文字列の類似度を見積もって、リロードなどによる重複と思われるものも可能な限り排除してみた。結果は以下のとおり。
検索語 | 件数 | |
---|---|---|
1. | photoshop | 4,153 |
2. | 着せ替え | 1,091 |
3. | rgb | 1,067 |
4. | cg | 988 |
5. | ガンマ | 947 |
6. | 背景 | 943 |
7. | ガンマ値 | 905 |
8. | グレースケール | 861 |
9. | 輝度 | 826 |
10. | 透明 | 717 |
11. | 18禁 | 698 |
12. | osakana | 623 |
合計 | 52,595 | |
平均 | 8.58 |
検索語 | 件数 | |
---|---|---|
1. | photoshop | 5,164 |
2. | 着せ替え | 2,308 |
3. | ロリコン | 1,587 |
4. | ロリータ | 1,174 |
5. | イラスト講座 | 1,143 |
6. | 講座 | 694 |
7. | イラスト | 676 |
8. | 背景 | 573 |
9. | ガンマ値 | 454 |
10. | 描き方 | 447 |
11. | shop | 423 |
12. | 水面 | 422 |
合計 | 35,921 | |
平均 | 10.78 |
検索語 | 件数 | |
---|---|---|
1. | 着せ替えゲーム | 4,821 |
2. | 着せ替え | 1,688 |
3. | ロリcg | 788 |
4. | ロリ | 433 |
5. | cg | 334 |
6. | photoshop | 275 |
7. | ゲーム | 237 |
8. | 大暮維人 | 152 |
9. | グレースケール | 142 |
10. | オーバーオール | 139 |
11. | lolita | 137 |
12. | ガンマ値 | 104 |
合計 | 12,522 | |
平均 | 17.71 |
検索語 | 件数 | |
---|---|---|
1. | 着せ替えゲーム | 714 |
2. | 着せ替え | 506 |
3. | photoshop | 151 |
4. | osakana.factory | 84 |
5. | ロリcg | 78 |
6. | ロリ | 64 |
7. | ゲーム | 52 |
8. | ガンマ値 | 48 |
9. | ガンマ | 45 |
10. | cg | 45 |
11. | 背景 | 43 |
12. | グレースケール | 39 |
合計 | 3,231 | |
平均 | 6.69 |
検索語 | 件数 | |
---|---|---|
1. | 着せ替え | 238 |
2. | photoshop | 50 |
3. | ガンマ | 29 |
4. | 水面 | 21 |
5. | オーバーオール | 21 |
6. | ペン入れ | 17 |
7. | 水面の描き方 | 14 |
8. | グレースケール | 14 |
9. | cg | 13 |
10. | 描き方 | 12 |
11. | 女の子の着せ替え | 11 |
12. | 初心者運転 | 10 |
合計 | 948 | |
平均 | 2.84 |
検索語 | 件数 | |
---|---|---|
1. | photoshop | 9,793 |
2. | 着せ替え | 5,831 |
3. | 着せ替えゲーム | 5,535 |
4. | cg | 1,790 |
5. | 背景 | 1,626 |
6. | ロリコン | 1,587 |
7. | ガンマ値 | 1,517 |
8. | ガンマ | 1,483 |
9. | グレースケール | 1,457 |
10. | rgb | 1,401 |
11. | 透明 | 1,229 |
12. | 輝度 | 1,200 |
合計 | 105,252 | |
平均 | 13.15 |
リクエスト総数 | 20,933,143 |
---|---|
統計期間 | 600日 |
採取できた外部HTTP_REFERER | 909,039 |
そのうち上記検索エンジン経由 | 105,252 |
外部REFERERに対する割合 | 11.58% |
全体に対する割合 | 0.50% |
MSN が意外に多くてびっくりした。さすが MS の次期コアブランド、順調に洗脳が進んでいるようだ。goo や excite は全然勝負になってない。このサイトに直接関係無い唯一の固有名詞が MSN の「大暮維人」というのはちょっと面白い。全サーチエンジンで上位なのが、「着せ替え」だったというのもちょっと驚き。着せ替えはそんなに求められていたのか。
率直な印象は、「サーチエンジンからくる人ってあんまいないんだなぁ」って感じだなぁ。想像よりずっと少ない。これはつまり来てくれる人が固定化してるってことなのだろうか。アンテナサイトやロボットが発達するとこうなるのかなぁ。時間軸で切ってみるべきだったかもしれないが、十分なサンプル取れないかもしれないなぁ。HTTP_REFERER の採取率は年々下がっているし。あとせっかく載せてもらってる Yahoo! Directory を集計から外したのはもったいなかったかなぁ。
うーん他にはどう読めばいいのかなこのデータ。例えば、それぞれのサーチエンジンの合計に占める 1 位の検索語の割合。Google がダントツに低い。これはつまり、検索語件数の偏差が小さいってことだ。ということは、Google を使う人は、それぞれバラバラの検索語を叩き込んでるってことで、Google から来る人は何かを探そうという明確な目的意識をもっているという印象を裏付ける傍証になってる……のかぁ?
より使えそうな統計として、あるキーワードで訪問してきた人がどの程度滞在したかを調べるというのがあるだろう。多分、非一般的な用語の方がサイト滞在時間が長引く傾向があるだろうなぁ。
著作者 : 未識 魚
最終更新日 : 2006-09-26 17:58:40