カテゴリー
最近更新したページ
メニューバーA
ここは自由に編集できるエリアです。
メニューバーB
ここは自由に編集できるエリアです。

Webクローラ

全文検索型サーチエンジンの検索データベースを作成するために、世界中のありとあらゆるWebページを回収するプログラム。

 全文検索型サーチエンジンでは、Webページの内容をサーチエンジン側のデータベースに保存しておき、検索要求があった時にはそのデータベースを検索して結果をはじき出している。検索ロボットはこのデータベースの内容を充実させたり点検したりするプログラムで、まだデータベースに収録されていないWebページや、更新されたWebページを発見しては内容を回収し、結果をデータベースに反映させている。

 検索ロボットがページを探し出す手段や、検索の対象とするファイルの種類はさまざまである。検索ロボットによってはテキストファイルやPDFファイル、ExcelやWordなどで作成した文書ファイルも回収していく。このため、適切なアクセス権の設定等を怠ったために企業の機密文書が検索可能になってしまったという事故も見られる。

 検索ロボットに回収されたくないファイルを指定する手段として、HTMLファイル内に検索を拒否することを明記したメタタグ(METAタグ)を記入したり、Webサーバの公開ディレクトリ最上層にロボットの挙動を指定するファイルを配置するという手法がある。

 しかし、検索ロボットによってはこのような指定を無視してファイルを回収していくため、機密性の高いファイルはアクセス権を制限するなどの手段で守る必要がある。
2005年12月14日(水) 22:04:27 Modified by mizunobara




スマートフォン版で見る