Help and Support

文書番号: 217103 - 最終更新日: 2007年12月4日 - リビジョン: 4.1

Robots.txt ファイルの記述方法

この記事は、以前は次の ID で公開されていました: JP217103
すべて展開する | すべて折りたたむ

概要

Web スパイダー (いわゆる Web ロボット) は、Web サーバー上でインターネットおよび Index ページを "クロール" する WWW 検索エンジンです。Web スパイダーは、検索した情報をカタログ化し、インターネット上で検索できるようにします。この情報を基に、スパイダーの WWW サイト経由で "(1 か所で用事が済む) ワンストップ ショッピング" を提供すると、ユーザーはインターネット上で特定の情報を簡単に見つけることができます。また、多くのロボットは、インターネット上のドキュメントに "スコア" などの優先順位を付け、検索で一致率の高い順に検索結果を並べ替えることができます。

Robots.txt ファイルは Web サーバーのルート ディレクトリに常駐する特別なテキスト ファイルです。このファイルには Web スパイダーに対するアクセス制限が記載されており、スパイダーはこのファイルを基に検索許可のある場所を判断します。すべての Web ロボットが Robots.txt ファイルのルールに従う必要はありませんが、ユーザーの定義したルールに従って検索を行うものほど質の高いロボットと言えます。

詳細

ロボットはサイトを参照するときに、その痕跡を IIS のログに残します。これは "ユーザー エージェント" として知られています。一般的に Web スパイダーは、以下の流れでサイトをクロールします。
  1. /robots.txt ファイルを要求し、そのロボット自体を参照している "User- agent:" 行があるかどうかを確認します。
    • そのロボット自体のエントリ ("User-agent: WebRobot" など) を見つけた場合、ロボットはそのエントリに関連付けられたルールに従います。
    • そのロボット自体のエントリが見つからない場合、グローバル ルール (たとえば、"User-agent: *" など) を探して、そのルールに従います。
    • どちらのエントリも存在する場合は、グローバル ルールよりも、そのロボット自体に対するルールの方が優先されます。
  2. ユーザー エージェント用のルールは "Disallow:" ステートメントで設定します。ここには、ロボットに検索を許可しない場所を指定します。Disallow ステートメントは、ロボットによって要求される可能性のある任意のアドレスに対して適用されます。以下に例を示します。
    • ステートメントに "Disallow: /test" と指定されていれば、Web スパイダーは /test の下にある /test/index.htm などのアドレスを無視します。
    • ステートメントに "Disallow: /" と指定されていれば、Web スパイダーはサイト全体を無視します。この指定が望ましい場合もあります。
    • ステートメントに "Disallow: " と指定されていれば、Web スパイダーはサイト全体をクロールできます。
  3. 番号記号 (#) で始まる行はコメントを示します。これは、長いルールを作成する場合に役立ちます。



    • すべての Web スパイダーによるサイト全体のクロールを禁止する場合
      # Make changes for all web spiders
      User-agent: *
      Disallow: / 
      						
    • "WebSpider" という名前のロボットによる、仮想パス "/marketing" および "/sales" のクロールを禁止する場合
      # Tell "WebSpider" where it can't go
      User-agent: WebSpider
      Disallow: /marketing
      Disallow: /sales
      # Allow all other robots to browse everywhere
      User-agent: *
      Disallow:
      						
    • "SpiderOne" という名前の Web スパイダーのみにサイトのクロールを許可し、他のスパイダーのクロールは禁止する場合
      # Allow "SpiderOne" in the site
      User-agent: SpiderOne
      Disallow:
      # Deny all other spiders
      User-agent: *
      Disallow: / 
      						
    • Web サイトのルートにある FrontPage に関連するパスのクロールを禁止する場合
      # Ignore FrontPage files
      User-agent: *
      Disallow: /_borders
      Disallow: /_derived
      Disallow: /_fpclass
      Disallow: /_overlay
      Disallow: /_private
      Disallow: /_themes
      Disallow: /_vti_bin
      Disallow: /_vti_cnf
      Disallow: /_vti_log
      Disallow: /_vti_map
      Disallow: /_vti_pvt
      Disallow: /_vti_txt
      						
Robots.txt ファイルの記述方法の詳細については、以下の Web サイトを参照してください。
http://www.robotstxt.org/wc/norobots.html (http://www.robotstxt.org/wc/norobots.html)

http://www.robotstxt.org/wc/faq.html (http://www.robotstxt.org/wc/faq.html)

http://www.robotstxt.org/ (http://www.robotstxt.org/)

関連情報

この資料は米国 Microsoft Corporation から提供されている Knowledge Base の Article ID 217103? (http://support.microsoft.com/kb/217103/EN-US/ ) (最終更新日 2003-05-20) を基に作成したものです。

この資料に含まれているサンプル コード/プログラムは英語版を前提に書かれたものをありのままに記述しており、日本語環境での動作は確認されておりません。

この資料は以下の製品について記述したものです。
  • Microsoft Internet Information Services 6.0
  • Microsoft Internet Information Server 1.0
  • Microsoft Internet Information Server 2.0
  • Microsoft Internet Information Server 3.0
  • Microsoft Internet Information Server 4.0
  • Microsoft Internet Information Services 5.0
キーワード:?
kbhowto KB217103
"Microsoft Knowledge Baseに含まれている情報は、いかなる保証もない現状ベースで提供されるものです。Microsoft Corporation及びその関連会社は、市場性および特定の目的への適合性を含めて、明示的にも黙示的にも、一切の保証をいたしません。さらに、Microsoft Corporation及びその関連会社は、本文書に含まれている情報の使用及び使用結果につき、正確性、真実性等、いかなる表明・保証も行ないません。Microsoft Corporation、その関連会社及びこれらの権限ある代理人による口頭または書面による一切の情報提供またはアドバイスは、保証を意味するものではなく、かつ上記免責条項の範囲を狭めるものではありません。Microsoft Corporation、その関連会社 及びこれらの者の供給者は、直接的、間接的、偶発的、結果的損害、逸失利益、懲罰的損害、または特別損害を含む全ての損害に対して、状況のいかんを問わず一切責任を負いません。(Microsoft Corporation、その関連会社 またはこれらの者の供給者がかかる損害の発生可能性を了知している場合を含みます。) 結果的損害または偶発的損害に対する責任の免除または制限を認めていない地域においては、上記制限が適用されない場合があります。なお、本文書においては、文書の体裁上の都合により製品名の表記において商標登録表示、その他の商標表示を省略している場合がありますので、予めご了解ください。"

サポート技術情報の翻訳