Robots.txt ファイルの生成


すべてのユーザーは、Microsoft Windows Server 2008 で実行されるインターネット インフォメーション サービス (IIS) 7.0 にアップグレードすることを強く推奨します。 IIS 7.0 は、Web インフラストラクチャのセキュリティを大幅に強化します。 IIS のセキュリティ関連トピックの詳細については、次のマイクロソフト Web サイトを参照してください。IIS 7.0 の関連情報については、次のマイクロソフト Web サイトを参照してください。

概要


ウェブスパイダーは、しばしばロボットと呼ばれ、インターネットを「クロール」し、Webサーバー上のページをインデックス化するWWW検索エンジンです。 その後、Web スパイダーはその情報をカタログ化し、インターネットで検索できるようにします。 これにより、ユーザーはスパイダーのWWWサイトを通じて「ワンストップショッピング」を可能にすることで、インターネット上の特定の情報を見つけやすくなります。 ほとんどのロボットは、インターネット上にあるドキュメントに優先順位を付け、検索結果を「スコア付け」したり、検索で最も一致する可能性の高い順に並べ替えたりできます。

Robots.txt ファイルは、常に Web サーバーのルート ディレクトリにある特別なテキスト ファイルです。 このファイルには、Web スパイダーの制限が含まれており、検索権限を持つ場所が表示されます。 なお、WebロボットはRobots.txtファイルを尊重する必要はありませんが、最もよく書かれたWebスパイダーは定義したルールに従います。

詳細情報


ロボットは、サイトを参照するときに自分自身を識別します。 一般に、Web スパイダーがサイトをクロールする場合のイベントのフローは、次のようになります。
  1. ロボットは/robots.txtファイルを要求し、具体的にそれを参照する"ユーザエージェント:"行を探します。
    • 「ユーザー エージェント: WebRobot」は、それに関連するルールに従います。
    • is がそれ自体のエントリを見つけられない場合は、"User-agent: *」とし、これらの規則に従います。
    • ロボットが自分自身のエントリを持ち、グローバルなルールセットも存在する場合、ロボットの個人ルールはグローバルルールに取って代わるでしょう。
  2. ユーザー エージェントのルールは、検索できない場所をロボットに伝える "Disallow:" ステートメントとして設定されます。 Disallow ステートメントは、Robot によって要求された可能性のあるアドレスに適用されます。 例:
    • DISALLOW /test" をクリックすると、Web スパイダーは /test/index.htmを無視します。
    • "Disallow: /" を使用すると、Web スパイダーはサイト全体を無視します。時には、これは望ましいです。
    • "Disallow: " を使用すると、Web スパイダーがサイト全体をクロールできます。
  3. ポンド記号 (#) で始まる行はコメントを示し、長いルールセットを作成する場合に役立ちます。

    • 次の使用例では、サイト全体のすべての Web スパイダーを無効にします。
      # Make changes for all web spiders
      User-agent: *
      Disallow: /
    • 次の例では、仮想パスの "/marketing" と "/sales" から "WebSpider" という名前のロボットを禁止します。
      # Tell "WebSpider" where it can't go
      User-agent: WebSpider
      Disallow: /marketing
      Disallow: /sales

      # Allow all other robots to browse everywhere
      User-agent: *
      Disallow:
    • 次の使用例では、"SpiderOne" という名前の Web スパイダーのみをサイトに許可し、他のすべてのスパイダーを拒否します。
      # Allow "SpiderOne" in the site
      User-agent: SpiderOne
      Disallow:

      # Deny all other spiders
      User-agent: *
      Disallow: /
    • 最後の例では、Web サイトのルート内の FrontPage 関連のパスを許可します。
      # Ignore FrontPage files
      User-agent: *
      Disallow: /_borders
      Disallow: /_derived
      Disallow: /_fpclass
      Disallow: /_overlay
      Disallow: /_private
      Disallow: /_themes
      Disallow: /_vti_bin
      Disallow: /_vti_cnf
      Disallow: /_vti_log
      Disallow: /_vti_map
      Disallow: /_vti_pvt
      Disallow: /_vti_txt
マイクロソフトのスクリプト技術の詳細については、以下の Web サイトを参照してください。