グーグルのインデックスにはリアルタイムに反映される

　グーグルがリアルタイムにインデックスを更新するようになったという情報がありました。（Google、リアルタイムにインデックスを更新 – 更新直後の記事を検索可能に :: SEM R）　新しい情報を検索エンジンが拾ってくれることは実は今までの検索エンジンの歴史から考えると凄いことです。そんなわけで検索エンジンの歴史を振り返ってみます。

最初はディレクトリ型
色々なロボット型
グーグルの登場
２００１年頃の使い分け
グーグルの進化
リアルタイム更新

最初はディレクトリ型

　当初の検索エンジンと言えばYahoo!に代表されるようなディレクトリ型の検索エンジンが当たり前でした。Yahoo!が日本語でサービスを開始したのは1996年だったようです。意外と最近のことなので驚きます。他にはInfoseek（現在は楽天の傘下）などもありました。

　この当時はYahoo!のサーファーがサイトを順次ディレクトリに登録していくことで、検索が可能になるという仕組みだったので、自分のサイトがいつ登録されるかはそのサイトの質と運次第という状況が続いていました。この頃からYahoo!は代表的な検索エンジン＆総合ポータルサイトとしての道を歩み始めます。

　ディレクトリ型検索エンジンはサイトのタイトルやサイトの説明文しか検索の対象にならないので、キーワードによってはnot foundになってしまうことが多々ありました。逆に大手企業のサイトなどを探したいときにはその企業の名前を入れればすぐにそのサイトが出てくるので、なかなか便利ではあります。さらに、人手をかけているだけあって、spamサイトなどあまり情報量のないサイトも登録されることはなかったので、当時は多用されていました。

色々なロボット型

　そしてディレクトリ型の検索エンジンの傍らで実験レベルで色々なロボット型の検索エンジンが立ち上がりました。ロボット型の検索エンジンは一ヶ月に一回程度の割合でインターネット上で公開されているサイトでリンクを辿りながら次々に読み込んでいき、そしてこれらのテキスト情報などをインデックスに登録していきます。

　そして、そのインデックスが公開されると検索が可能になるというものです。いわゆる全文検索エンジンとも呼ばれていました。このシステムはかなり的を絞ったキーワードを入れてもそのキーワードを含むページを一気に検索してくれます。ディレクトリ型の検索エンジンでは見つけられないような情報が簡単に見つけられるので便利なものでした。

　逆にメジャーなキーワードを入れてしまうと、一気に何万というとんでもない数の検索結果が表示されてしまいます。この中から本当に自分が必要な情報を見つけ出すのは大変な作業でした。そこでロボット型検索エンジンを持つ各社は出来るだけ使用する人のニーズにマッチした順番で検索結果を表示する技術の開発にしのぎを削りました。

グーグルの登場

　そんな中で２０００年に登場したのがグーグル日本語版です。非常にシンプルな画面で、「この検索エンジンで本当に大丈夫なのかな？」と最初は不安になるのですが実際に検索をすると意外と自分が欲しい情報が上位の検索結果に表れます。なにやらページランクという概念を導入して、検索対象のページに対して他のページからどの程度のリンクが貼られているかということを、そのページの人気の指標とする仕組みを取り入れているということです。

　従来のロボット型検索エンジンでは検索対象のページの中にあるコンテンツを解析して、検索対象の語句がどの程度使われているかなどを指標にしていたため、悪意のもった人がロボット型検索エンジンに良い評価を得られるための工夫が比較的行いやすかったのですが、他のサイトからのリンク数となるとそうは簡単に操作することができません。このころから相互リンクを積極的に実施してページのランクを上げようという対策をしている人もたくさん現れ始めました。このグーグルの登場は何かスゴイものなのではないかという感じが登場したばかりの当時からしていました。

２００１年頃の使い分け

　２００１年頃の当時は検索エンジンの二大勢力としてはディレクトリ型はYahoo!、そしてロボット型はグーグルの二種売りでした。海外では当時からかなりの割合でグーグルにシフトが始まっていたようですが、日本では検索エンジンと言えばＹａｈｏｏ！というほど知名度が非常に高かったこともありYahoo!離れはさほど発生しませんでした。

　当時は私は、メジャーキーワードで検索をするときにはディレクトリ型のYahoo!を使用し、マイナーなキーワードで検索をするときにはＧoogleを使用するという使い分けをしていました。これであまり困ってはいなかったのですが、グーグルは更に進化を続けていきます。

グーグルの進化

　グーグルの進化の中で特にグーグルが力を入れていたのはいわゆるSPAMサイトを検索結果の上位から排除することだったのではないでしょうか。メジャーなキーワードでグーグルの検索結果上位に表示することが出来れば、そのページへの来訪者は驚くほど増えます。

　検索結果の最初の１ページ目に入るか２ページ目以降になってしまうかとでは、そのサイトに訪れる人の数は格段の違いが生じるそうです。特にグーグルに良い評価を得ようとするために色々な施策を施してあるけれどもあまりコンテンツの中身はないといったページが増えてきて、グーグルはこのようなサイトを検索結果の上位から排除するためのアルゴリズムを取り入れることに努力をしていきました。

　また、もう一つは出来るだけ新鮮な情報を検索結果に取り入れることにもグーグルは力を入れていました。２０００年の前半には３ヶ月から４ヶ月に1回のインデックスの更新が行われるまでは新しいページの情報はインデックスに更新されていませんでした。

　当時はインデックスに入っている情報は鮮度からいうとかなり古い情報だけだったことになります。その後、１ヶ月に1回の頻度でインデックスが更新されるようになりました。この当時はインデックスの更新時期になると、検索対象サイトの結果表示順位がめまぐるしく変わることがあり、この事象のことをグーグルダンスと呼んでいました。

　このときのインデックスを更新するための情報は１ヶ月に1回、各サイトの情報を読み取りに行くディープクロールで持ってきた情報で実現していました。しかし、このディープクロールとは別に、頻繁に更新されるサイトについてはフレッシュクローラーというロボットが毎日のようにサイトに訪れるようになりました。

　こちらの記事（livedoor ニュース – さっき書いた文章が、もう検索できる！米Google、ほぼリアルタイム・インデクシングを実現）によれば２００３年の夏からこのフレッシュクロールは始まったようです。

　この頻繁に更新されるサイトと違うサイトというのはどのような基準で選ばれているかはよく判らないのですが、私が持っているサイトのうちの一部ではフレッシュクローラーが来てくれるようになりました。このサイトではそのサイトを更新すると２、３日以内に検索結果に新しい記事が反映されるようになりました。　

リアルタイム更新

　そして今回発表された情報（Googleウェブ検索、リアルタイムに最新ニュースが検索可能に：渡辺隆広のサーチエンジン情報館 – CNET Japan）によると、日本では記事を公開した後に１時間程度でその情報はウェブ検索の結果に反映されるようになったそうです。ただし、下記の文章にあるように全部のサイトがリアルタイム更新の対象になっているわけではありません。