当Wikiでは、分かりづらいIT・パソコン用語の解説や、PC・周辺機器の機能・性能等の情報をまとめています。

読み方:けんさくロボット
別名:crawler, スパイダー, spider, Webクローラ, web crawler


全文検索型サーチエンジンの検索データベースを作成するために、世界中のありとあらゆるWebページを回収するプログラム。

全文検索型サーチエンジンでは、Webページの内容をサーチエンジン側のデータベースに保存しておき、検索要求があった時にはそのデータベースを検索して結果をはじき出している。検索ロボットはこのデータベースの内容を充実させたり点検したりするプログラムで、まだデータベースに収録されていないWebページや、更新されたWebページを発見しては内容を回収し、結果をデータベースに反映させている。

検索ロボットがページを探し出す手段や、検索の対象とするファイルの種類はさまざまである。検索ロボットによってはテキストファイルやPDFファイル、ExcelやWordなどで作成した文書ファイルも回収していく。このため、適切なアクセス権の設定等を怠ったために企業の機密文書が検索可能になってしまったという事故も見られる。

検索ロボットに回収されたくないファイルを指定する手段として、HTMLファイル内に検索を拒否することを明記したメタタグ(METAタグ)を記入したり、Webサーバの公開ディレクトリ最上層にロボットの挙動を指定するファイルを配置するという手法がある。

しかし、検索ロボットによってはこのような指定を無視してファイルを回収していくため、機密性の高いファイルはアクセス権を制限するなどの手段で守る必要がある。





Web用語集へ戻る

メンバーのみ編集できます