Google Dance(グーグル ダンス)黙示録

Googlebot一覧(改訂版)

Google Dance(グーグル ダンス)黙示録

グーグルダンス黙示録サイトは、「Google上位表示SEO」を意識しつつも、ストリクトHTMLによる正しいマークアップ、見出し段落を中心にコンテンツを作成。デザインやレイアウトは外部参照CSSにまかせ、アクセシビリティにも配慮している。Netscape 4.xをはじめいくつかのブラウザでは、CSSを読み込まず、管理人の意図通りには表示されない。つまりこの文章が見えている。アクセスメニューは最下部に表示される。

株式会社アルゴリズムが運営するSEO塾は、東京新宿・大阪梅田・福岡博多・広島福山でセミナー開催

検索エンジンのアルゴリズムを深く掘り下げ、ペナルティを速く発見。SEO塾セミナーは費用対効果バツグン

Yahoo!で突然、順位がダウンした! トップページが消えた!!
Googleで、何をやっても順位が上がらない! ディレクトリ丸ごとページが検索されなくなった!!

東京新宿、大阪梅田で、最高最強最新のSEO塾セミナーを随時開催いたします。

上位表示とリカバリー策は業界オンリーワン。よその「SEO対策」に失望したならSEO塾主催のセミナーへ

Googlebot(ロボット、スパイダー)の一覧〜改訂版

このページは、Googleの巡回ロボット、スパイダーである、Googlebot、クローラーについて解説している。サーバログなどに痕跡を残すUSER-AGENTやGooglebotのドメイン(ホスト名)とIPアドレスの一覧。インデックスサーバ用のクロールをインデックスクロール(IndexBot)、ドキュメントサーバ用のクロールをキャッシュクロール(CacheBot)、その中で日付入りに関するものをデートクロール(DateBot)と、仮称しておく。

crawlx.googlebot.com


Googlebotのホスト名とIPアドレス一覧 crawlx.googlebot.com
Crawl1 64.68.92.1 64.68.92.30 Crawl16 64.68.85.1 64.68.85.30
Crawl2 64.68.92.31 64.68.92.60 Crawl17 64.68.85.31 64.68.85.60
Crawl3 64.68.92.61 64.68.92.80 Crawl18 64.68.85.61 64.68.85.80
Crawl4 64.68.92.129 64.68.92158 Crawl19 64.68.85.129 64.68.85.158
Crawl5 64.68.92.159 64.68.92.182 Crawl20 64.68.85.159 64.68.85.188
Crawl? 64.68.92.183 64.68.92.199 Crawl21 64.68.85.189 64.68.85.208
Crawl6 64.68.92.200 64.68.92.208 Crawl22 64.68.80.1 64.68.80.30
Crawl7 64.68.81.129 64.68.81.158 Crawl23 64.68.80.31 64.68.80.60
Crawl8 64.68.81.159 64.68.81.188 Crawl24 64.68.80.61 64.68.80.80
Crawl9 64.68.81.189 64.68.81.208 Crawl25 64.68.80.129 64.68.80.158
Crawl10 64.68.84.1 64.68.84.30 Crawl26 64.68.80.159 64.68.80.188
Crawl11 64.68.84.31 64.68.84.60 Crawl27 64.68.80.189 64.68.80.208
Crawl12 64.68.84.61 64.68.84.80 Crawl28 64.68.81.1 64.68.81.30
Crawl13 64.68.84.129 64.68.84.158 Crawl29 64.68.81.31 64.68.81.60
Crawl14 64.68.84.159 64.68.84.188 Crawl30 64.68.81.61 64.68.81.80
Crawl15 64.68.84.189 64.68.84.208
Crawl31 64.68.83.1 64.68.83.30 64.68.88.1 64.68.88.30
Crawl32 64.68.83.31 64.68.83.60 64.68.88.31 64.68.88.60
Crawl33 64.68.83.61 64.68.83.80 64.68.88.61 64.68.88.80
Crawl34 64.68.83.129 64.68.83.158 64.68.88.129 64.68.88.158
Crawl35 64.68.83.159 64.68.83.188 64.68.88.159 64.68.88.188
Crawl36 64.68.83.189 64.68.83.208 64.68.88.189 64.68.88.208



crawlerx.googlebot.com


Googlebotのホスト名とIPアドレス一覧 crawlerx.googlebot.com
Crawler1 64.68.86.1 64.68.86.30 Crawler10 64.68.82.1 64.68.82.30
Crawler2 64.68.86.31 64.68.86.60 Crawler11 64.68.82.31 64.68.82.60
Crawler3 64.68.86.61 64.68.86.80 Crawler12 64.68.82.61 64.68.82.80
Crawler4 64.68.86.130 64.68.86.158 Crawler13 64.68.82.129 64.68.82.158
Crawler5 64.68.86.159 64.68.86.188 Crawler14 64.68.82.159 64.68.82.188
Crawler6 64.68.86.189 64.68.86.208 Crawler15 64.68.82.189 64.68.82.208
Crawler7 64.68.87.1 64.68.87.30 Crawler16 64.68.91.1 64.68.91.30
Crawler8 64.68.87.31
64.68.87.60 Crawler17 64.68.91.31 64.68.91.60
Crawler9 64.68.87.61 64.68.87.80 Crawler18 64.68.91.61 64.68.91.80
crawler19 64.68.91.129 64.68.91.158
crawler20 64.68.91.159 64.68.91.188
crawler21 64.68.91.189 64.68.91.208



クロールのパターン

インデックスとキャッシュ

キーワード検索の対象は、インデックスサーバのインデックス。

これに対して、検索結果画面に表示されるのは、キャッシュサーバのタイトルやスニペット(説明文)など。

キャッシュに最新の日付が出ていたり、修正済みのページが出ても、インデックスも更新されているとは限らない。

時々キャッシュが古いものに戻ってしまうが、仮に最新のキャッシュが表示されていても、インデックスは古いままということがある。

そして、ランキング対象のページは、順位付けされるのは、インデックスのみである。

詳しくは、Googleのキーワード検索の研究〜改訂版

インデックスクロール(IndexBot)

インデックスサーバ用のクロールをインデックスクロール(IndexBot)と、仮称しておく。

以前のDeepbotと同じであるが、IPやホスト名、User-Agentなどによって見分けることはできない。

このインデックスクロールによってGETされたページが、順位付け対象のインデックスとなる。

キャッシュクロール(CacheBot)

ドキュメントサーバ用のクロールをキャッシュクロール(CacheBot)と、仮称しておく。

IndexBot同様、見分けが付かない。

このキャッシュクロールによってGETされたページのタイトルやスニペットが、検索結果画面(SERPs)に表示される。

また、キャッシュクロールにGETされたページは、原則として、順位付けの対象とはなっていない。

消えてしまうことも、古いものに戻ってしまうこともある。

デートクロール(DateBot)

ドキュメントサーバ用のクロールはキャッシュクロール(CacheBot)であるが、その中で日付入りに関するものをデートクロール(DateBot)と、仮称しておく。

デートクロールはキャッシュの日付入りに現れる。ただし、日付入りキャッシュがすべてデートクロールの対象であるわけではない。

瞬間的にSERPsに出現するページにも、日付が表示されることがある。ただし、短期間で消え去ることが多い。

当サイトの検証では、デートクロールされているページからリンクされているページが、デートクロールの対象となっている。



Testbot

Googlebot/Test

User-Agentは、Googlebot/TestまたはGooglebot/Test (+http://www.googlebot.com/bot.html)となっている。

今のところIPは、64.68.89.xもしくは64.68.83.xである。

また、Hypertext Transfer Protocolは、HTTP/1.1となっていることも特徴的だ。

同一ページを、短時間に何度もGETしたり、驚くべきはJavaScriptもGETされている。

JavaScript

「filetype:js function」という検索をしてみるとおもしろい。

ただし、ファイルにはすべて引数がついている。

しかも、Testbot以前にはインデックスされていなかったのか、定かではないし…



GooglebotのUSER-AGENT

Googlebot/2.1

Googlebot/2.1 (+http://www.googlebot.com/bot.html)

通常のGooglebot。

Mozilla/5.0

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

たまに見かけるGooglebot。

Mediapartners-Google/2.1

Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)

AdSense用のGooglebotと言われている。

Googlebot-Image/1.0

Googlebot-Image/1.0 (+http://www.googlebot.com/bot.html)

イメージ検索用の画像を収集するGooglebot。

Googlebot/Test

Googlebot/Test

Googlebot/Test (+http://www.googlebot.com/bot.html)

不審なGooglebot。上記参照。



その他

他の検索エンジンについて

WEB雑記2 USER-AGENT(サイトを訪れるユーザーエージェントについて)

HTTPステータスコード

64.68.82.28 - - [07/May/2003:15:57:19 +0900] "GET /google/ HTTP/1.0" 200 36657 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"
上記ログの「200」の箇所は、HTTPステータスコードという。「301」「302」「304」「401」「404」などと記録される。

HTTPステータス・コードHTTPステータスコードを参照のこと。

ステータス・コード 意味
200 OK Googlebotのファイル取得
301 Moved Permanently 別のアドレスへ移動
302 Moved Temporarily 一時的に別のアドレスに移動
304 Not Modified 未更新
401 Unauthorized 認証が必要
404 Not Found ページなし



▲To PageTop