Robots.txt ファイルとサイトマップ ファイルの管理

Ruslan Yakushev

IIS 検索エンジン最適化ツールキットには、Web サイトの Robots.txt ファイルのコンテンツの管理に使用できるロボット排除機能と、サイトマップの管理に使用できるサイトマップとサイトマップ インデックス機能が含まれています。 このチュートリアルでは、これらの機能を使用する方法と、使用すべき理由について説明します。

背景

検索エンジン クローラーがあなたの Web サイトに費やす時間とリソースは限られています。 そのため、次のことを行う必要があります。

  1. クローラーが、重要ではないコンテンツや検索結果ページに表示すべきでないコンテンツのインデックスを作成しないようにする。
  2. インデックス作成で最も重要と思われるコンテンツをクローラーに示す。

これらのタスクを実現するために一般的に使用される 2 つのプロトコルは、ロボット排除プロトコルサイトマップ プロトコルです。

ロボット排除プロトコルは、Web サイトをクロールするときに要求すべきでない URL を検索エンジン クローラーに通知するために使用されます。 排除の指示は、Web サイトのルートに配置される、Robots.txt という名前のテキスト ファイルに含めます。 ほとんどの検索エンジン クローラーは通常、このファイルを検索し、その中の指示に従います。

サイトマップ プロトコルは、Web サイトでのクロールに使用できる URL について検索エンジン クローラーに通知するために使用されます。 さらにサイトマップは、サイトの URL に関する追加のメタデータ (最終変更時刻、変更頻度、相対的な優先度など) を提供するために使用されます。検索エンジンは、Web サイトのインデックス作成時にこのメタデータを使用する場合があります。

前提条件

1.Web サイトまたはアプリケーションを設定する

このチュートリアルを完了するには、IIS 7 以降がホストする Web サイトか、自分の管理下にある Web アプリケーションが必要です。 それらがない場合は、Microsoft Web アプリケーション ギャラリーからインストールできます。 このチュートリアルでは、人気のあるブログ アプリケーションである DasBlog を使用します。

2.Web サイトを分析する

Web サイトまたは Web アプリケーションの準備ができたら、一般的な検索エンジンがコンテンツをどのようにクロールするかを理解するために、それを分析します。 これを行うには、「サイト分析を使用して Web サイトをクロールする」および「サイト分析レポートについて」に記載されている手順に従います。 分析を行うと、いくつかの URL は検索エンジンがクロールできるものの、それをクロールすることやインデックスを作成することにそれほど利点がないことに気付くでしょう。 たとえば、ログイン ページやリソース ページは、検索エンジン クローラーによって要求されるべきではありません。 このような URL は、Robots.txt ファイルに追加することで、検索エンジンが表示しないようにする必要があります。

Robots.txt ファイルの管理

IIS SEO ツールキットのロボット排除を使用して Robots.txt ファイルを作成し、Web サイトの中でクロールとインデックス作成を行うべきでない部分を検索エンジンに指示できます。 次の手順で、このツールの使用方法について説明します。

  1. [スタート] メニューに「INETMGR」と入力して IIS 管理コンソールを開きます。
  2. 左側のツリー ビューを使用して、Web サイトに移動します (既定の Web サイトなど)。
  3. [管理] セクションの [検索エンジンの最適化] アイコンをクリックします。
    [管理] セクションのアイコンを示すスクリーンショット。
  4. SEO のメイン ページで、[ロボット排除] セクション内の [新しい拒否ルールの追加] タスク リンクをクリックします。
    [検索エンジンの最適化] セクションの下のロボットの除外を示すスクリーンショット。

拒否および許可ルールの追加

[拒否ルールの追加] ダイアログが自動で開きます。

[許可しないルールの追加] ダイアログを示すスクリーンショット。[U R L 構造] リストが展開され、[From Site Analysis (myblog)] が選択されています。

ロボット排除プロトコルでは、"Allow" ディレクティブと "Disallow" ディレクティブを使用して、クロールできる URL パスと、クロールできない URL パスについて検索エンジンに通知します。 これらのディレクティブは、すべての検索エンジンに対して指定するか、ユーザー エージェント HTTP ヘッダーによって識別される特定のユーザー エージェントに対して指定できます。 [拒否ルールの追加] ダイアログで、クローラーのユーザー エージェントを [ロボット (ユーザー エージェント)] フィールドに入力することで、ディレクティブが適用される検索エンジン クローラーを指定できます。

URL パス ツリー ビューを使用して、拒否する URL を選択します。 [URL 構造] ドロップダウン リストを使用して URL パスを選択する場合は、いくつかのオプションから選択できます。

  • 物理的な場所 - Web サイトの物理ファイル システム レイアウトからパスを選択できます。
  • サイト分析 (分析名) から - IIS サイト分析ツールを使用してサイトを分析したときに検出された仮想 URL 構造からパスを選択できます。
  • <Run new Site Analysis... (新しいサイト分析の実行...)> - 新しいサイト分析を実行して Web サイトの仮想 URL 構造を取得し、そこから URL パスを選択できます。

前提条件のセクションで説明されている手順を完了すると、サイト分析を使用できるようになります。 ドロップダウン リストで分析を選択し、[URL パス] ツリー ビューのチェック ボックスを使用して、検索エンジンに表示すべきでない URL にチェックを入れます。

[許可しないルールの追加] ダイアログのスクリーンショット。選択した U R L パスは、許可されていない U R L パスの下に表示されます。

拒否する必要があるすべてのディレクトリとファイルを選択したら、[OK] をクリックします。 メイン機能ビューに新しい拒否エントリが表示されます。

[Robots Exclusion]\(ロボットの除外\) ウィンドウのスクリーンショット。許可されていないパスが [メイン] ウィンドウに表示されます。

また、サイトの Robots.txt ファイルが更新されます (存在しない場合は作成されます)。 その内容は次のようになります。

User-agent: *
Disallow: /EditConfig.aspx
Disallow: /EditService.asmx/
Disallow: /images/
Disallow: /Login.aspx
Disallow: /scripts/
Disallow: /SyndicationService.asmx/

Robots.txt の動作を確認するには、サイト分析機能に戻り、サイトの分析を再実行します。 [レポートの概要] ページの [リンク] カテゴリで、[Robots.txt によってブロックされたリンク] を選択します。 このレポートには、作成した Robots.txt ファイルによって拒否されたためにクロールされていないすべてのリンクが表示されます。

[サイト分析レポート] ウィンドウのスクリーンショット。ブロックされたリンクの一覧が メイン ペインに表示されます。

サイトマップ ファイルの管理

IIS SEO ツールキットのサイトマップとサイトマップ インデックス機能を使用して、Web サイト上でサイトマップを作成し、クロールおよびインデックス作成を行うべきページを検索エンジンに通知できます。 これを行うには、次の手順を実行します。

  1. [スタート] メニューに「INETMGR」と入力して IIS マネージャーを開きます。
  2. 左側のツリー ビューを使用して、Web サイトに移動します。
  3. [管理] セクションの [検索エンジンの最適化] アイコンをクリックします。
    検索エンジンの最適化アイコンを示すスクリーンショット。
  4. SEO のメイン ページで、[サイトマップとサイトマップ インデックス] セクション内の[新しいサイトマップの作成] タスク リンクをクリックします。
    [検索エンジンの最適化] セクションの下のサイトマップとサイトマップ インデックスを示すスクリーンショット。
  5. [サイトマップの追加] ダイアログボックスが自動で開きます。
    [新しいサイトマップ] ダイアログが表示された [サイトマップとサイトマップ インデックス] ウィンドウを示すスクリーンショット。
  6. サイトマップ ファイルの名前を入力し、[OK] をクリックします。 [URL の追加] ダイアログが表示されます。

サイトマップへの URL の追加

[URL の追加] ダイアログは次のようになります。

myblog U R L パス ツリー ビューを示す [ADD U R Ls]\(U R L の追加\) ダイアログのスクリーンショット。

サイトマップ ファイルは、URL といくつかのメタデータ (変更頻度、最終更新日、相対優先度など) を一覧表示する、シンプルな XML ファイルです。 [URL の追加] ダイアログを使用して、新しい URL エントリをサイトマップの xml ファイルに追加します。 サイトマップ内の各 URL は、完全修飾 URI 形式である必要があります (つまり、プロトコル プレフィックスとドメイン名を含める必要があります)。 そのため、サイトマップに追加する URL に使用されるドメインを最初に指定する必要があります。

URL パス ツリー ビューは、インデックス作成のためにサイトマップに追加する URL を選択するために使用されます。 [URL 構造] ドロップダウン リストを使用して、いくつかのオプションから選択できます。

  • 物理的な場所 - Web サイトの物理ファイル システム レイアウトから URL を選択できます。
  • サイト分析 (分析名) から - サイト分析ツールを使用してサイトを分析したときに検出された仮想 URL 構造から URL を選択できます。
  • <Run new Site Analysis...>(新しいサイト分析の実行...) - 新しいサイト分析を実行して Web サイトの仮想 URL 構造を取得し、そこからインデックス作成用に追加する URL パスを選択できます。

前提条件セクションの手順を完了すると、サイト分析を使用できるようになります。 ドロップダウン リストから選択し、サイトマップに追加する必要がある URL にチェックを入れます。

必要に応じて、[変更頻度][最終更新日][優先度] オプションを変更し、[OK] をクリックしてサイトマップに URL を追加します。 sitemap.xml ファイルが更新され (存在しない場合は作成され)、その内容は次のようになります。

<urlset>
  <url>
    <loc>http://myblog/2009/03/11/CongratulationsYouveInstalledDasBlogWithWebDeploy.aspx</loc>
    <lastmod>2009-06-03T16:05:02</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.5</priority>
  </url>
  <url>
    <loc>http://myblog/2009/06/02/ASPNETAndURLRewriting.aspx</loc>
    <lastmod>2009-06-03T16:05:01</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.5</priority>
  </url>
</urlset>

Robots.txt ファイルへのサイトマップの場所の追加

サイトマップを作成したので、検索エンジンがサイトマップの使用を開始できるように、それがどこにあるかを知らせる必要があります。 これを行う最も簡単な方法は、サイトマップの場所の URL を Robots.txt ファイルに追加することです。

サイトマップとサイトマップ インデックス機能で、先ほど作成したサイトマップを選択し、[操作] ウィンドウで [Robots.txt に追加] をクリックします。

[I I S Manager] ウィンドウと [サイトマップをロボットに追加] テキスト ダイアログのスクリーンショット。

Robots.txt ファイルは次のようになります。

User-agent: *
Disallow: /EditService.asmx/
Disallow: /images/
Disallow: /scripts/
Disallow: /SyndicationService.asmx/
Disallow: /EditConfig.aspx
Disallow: /Login.aspx

Sitemap: http://myblog/sitemap.xml

検索エンジンへのサイトマップの登録

Robots.txt ファイルにサイトマップの場所を追加するだけでなく、サイトマップの場所の URL を主要な検索エンジンに送信することをお勧めします。 これにより、検索エンジンの Web マスター ツールから、自分の Web サイトに関する有用なステータス情報と統計情報を取得できます。

まとめ

このチュートリアルでは、IIS 検索エンジン最適化ツールキットのロボット排除機能と、サイトマップとサイトマップ インデックス機能を使用して、Web サイト上の Robots.txt ファイルとサイトマップ ファイルを管理する方法について学びました。 IIS 検索エンジン最適化ツールキットには、検索エンジンに使用される前に、Robots.txt ファイルとサイトマップ ファイルを作成してその正確性を検証するのに役立つ一連のツールが統合されています。