管理Robots.txt和 Sitemap 檔案

Ruslan Yakushev

IIS 搜尋引擎優化工具組包含 機器人排除 功能,可用來管理網站Robots.txt檔案的內容,並包含 可用來管理網站網站地圖的網站地圖和網站地圖索引 功能。 本逐步解說說明如何使用這些功能的方式和原因。

背景

搜尋引擎搜耙程式將花費有限的時間和資源在您的網站上。 因此,請務必執行下列動作:

  1. 防止編目程式編製不重要或不應該出現在搜尋結果頁面中的內容索引。
  2. 將編目程式指向您認為對編製索引最重要的內容。

有兩種通訊協定通常用於達成這些工作: 機器人排除通訊協定Sitemaps 通訊協定

機器人排除通訊協議是用來告訴搜尋引擎編目者在編目網站時不應該要求的URL。 排除指令會放在名為 Robots.txt 的文字檔中,該文本檔位於網站的根目錄。 大部分的搜尋引擎搜耙程式通常會尋找此檔案,並遵循其中的指示。

Sitemaps 通訊協定可用來通知搜尋引擎編目程式,這些 URL 可供您網站上編目。 此外,Sitemaps 可用來提供網站 URL 的相關一些額外元數據,例如上次修改的時間、修改頻率、相對優先順序等。搜尋引擎可能會在編製網站索引時使用此元數據。

必要條件

1.設定網站或應用程式

若要完成本逐步解說,您需要裝載的 IIS 7 或更新版本網站或您控制的 Web 應用程式。 如果您沒有帳戶,您可以從 Microsoft Web 應用連結庫安裝一個。 為了本逐步解說的目的,我們將使用熱門的部落格應用程式 DasBlog

2.分析網站

擁有網站或 Web 應用程式之後,您可能會想要分析它,以瞭解一般搜尋引擎如何編目其內容。 若要這樣做,請遵循「使用網站分析來編目網站」和「使用網站分析報告」一文中所述的步驟。 當您進行分析時,您可能會注意到有某些 URL 可供搜尋引擎進行搜耙,但在編目或編製索引時沒有真正的好處。 例如,搜尋引擎編目程式甚至不應該要求登入頁面或資源頁面。 將這類 URL 新增至Robots.txt檔案,應該隱藏在搜尋引擎中。

管理Robots.txt檔案

您可以使用 IIS SEO 工具組的 [機器人排除] 功能來撰寫Robots.txt檔案,告知搜尋引擎不應該編目或編製網站的哪些部分。 下列步驟說明如何使用此工具。

  1. 在 [開始] 功能表 中輸入 INETMGR,以開啟 IIS 管理控制台。
  2. 使用左側的樹視圖流覽至您的網站(例如默認網站)。
  3. 點選 [管理] 區段中的 [搜尋引擎優化 ] 圖示:
    顯示管理區段圖示的螢幕快照。
  4. 在 SEO 主頁面上,按兩下 [機器人排除] 區段中的 [新增不允許規則] 工作連結。
    顯示 [搜尋引擎優化] 區段下 [機器人排除] 的螢幕快照。

新增不允許和允許規則

[新增不允許規則] 對話框會自動開啟:

顯示 [新增不允許規則] 對話框的螢幕快照。U R L 結構清單已展開,並已選取 [網站分析] [myblog]。

機器人排除通訊協定使用 「Allow」 和 「Disallow」 指示詞來通知搜尋引擎可以編目的 URL 路徑,以及無法編目的路徑。 您可以針對所有搜尋引擎或使用者代理程式 HTTP 標頭所識別的特定使用者代理程式指定這些指示詞。 在 [新增不允許規則] 對話框中,您可以將編目程式的使用者代理程序輸入至 [機器人(使用者代理程式)] 字段,以指定指示詞所套用的搜尋引擎編目程式。

URL 路徑樹檢視可用來選取應該不允許的URL。 您可以使用 [URL 結構] 下拉式清單選取 URL 路徑時,從數個選項中選擇:

  • 實體位置 - 您可以從網站的實體檔案系統設定中選擇路徑。
  • 從網站分析 (分析名稱) - 您可以從使用 IIS 網站分析工具分析網站時探索到的虛擬 URL 結構選擇路徑。
  • <執行新的網站分析...> - 您可以執行新的網站分析來取得網站的虛擬 URL 結構,然後從該處選取 URL 路徑。

完成必要條件一節中所述的步驟之後,您將有可用的網站分析。 選擇下拉式清單中的分析,然後使用 [URL 路徑] 樹檢視中的複選框,檢查搜尋引擎需要隱藏的 URL:

[新增不允許規則] 對話框的螢幕快照。選取的 U R L 路徑會出現在 [不允許的 U R L 路徑] 底下。

選取所有需要不允許的目錄和檔案之後,按兩下 [確定]。 您會在主要功能檢視中看到新的不允許專案:

[機器人排除] 視窗的螢幕快照。不允許的路徑會顯示在主窗格中。

此外,網站Robots.txt檔案將會更新(如果不存在,則會加以建立)。 其內容看起來會像這樣:

User-agent: *
Disallow: /EditConfig.aspx
Disallow: /EditService.asmx/
Disallow: /images/
Disallow: /Login.aspx
Disallow: /scripts/
Disallow: /SyndicationService.asmx/

若要查看Robots.txt的運作方式,請返回網站分析功能,然後重新執行網站的分析。 在 [報表摘要] 頁面上,於 [鏈接] 類別中,選擇 [封鎖的連結] Robots.txt。 此報表會顯示尚未編目的所有鏈接,因為您剛才建立的Robots.txt檔案不允許這些連結。

[網站分析報告] 視窗的螢幕快照。封鎖的連結清單會出現在主窗格中。

管理 Sitemap 檔案

您可以使用 IIS SEO 工具組的 Sitemaps 和 Sitemap 索引功能,在您的網站上撰寫網站地圖,以通知搜尋引擎應該編目和編製索引的頁面。 若要這麼做,請執行下列步驟:

  1. 在 [開始] 功能表中輸入 INETMGR,以開啟 IIS 管理員。
  2. 使用左側的樹視圖流覽至您的網站。
  3. 點選 [管理] 區段中的 [搜尋引擎優化 ] 圖示:
    顯示搜尋引擎優化圖示的螢幕快照。
  4. 在 SEO 主頁面上,按兩下 [網站地圖和網站地圖索引] 區段中的 [建立新的網站地圖] 工作連結。
    顯示 [搜尋引擎優化] 區段下 [網站地圖] 和 [網站地圖索引] 的螢幕快照。
  5. [ 新增網站地圖] 對話框會自動開啟。
    顯示 [網站地圖] 和 [網站地圖索引] 視窗與 [新增網站地圖] 對話框的螢幕快照。
  6. 輸入網站地圖檔案的名稱,然後按下 [ 確定]。 [ 新增 URL] 對話框隨即出現。

將 URL 新增至網站地圖

[ 新增 URL] 對話框看起來像這樣:

[新增 U R Ls] 對話框的螢幕快照,其中顯示 myblog U R L 路徑樹視圖。

Sitemap 檔案基本上是簡單的 XML 檔案,會列出 URL 以及一些元數據,例如變更頻率、上次修改日期和相對優先順序。 您可以使用 [ 新增 URL] 對話框,將新的 URL 專案新增至 Sitemap xml 檔案。 網站地圖中的每個 URL 都必須以完整 URI 格式(也就是必須包含通訊協定前置詞和功能變數名稱)。 因此,您必須先指定網域,才能用於您要新增至網站地圖的URL。

URL 路徑樹檢視可用來選取應新增至網站地圖以編製索引的 URL。 您可以使用 [URL 結構] 下拉式清單,從數個選項中選擇:

  • 實體位置 - 您可以從網站的實體檔案系統設定中選擇 URL。
  • 從網站分析 (分析名稱) - 您可以從使用網站分析工具分析網站時探索到的虛擬 URL 結構選擇 URL。
  • <執行新的網站分析...> - 您可以執行新的網站分析,以取得網站的虛擬 URL 結構,然後從該處選取要新增以編製索引的 URL 路徑。

完成必要條件一節中的步驟之後,您將有可用的網站分析。 從下拉式清單中選擇它,然後檢查需要新增至網站地圖的URL。

如有必要,請修改 [變更頻率]、 [上次修改日期] 和 [優先順序 ] 選項,然後按兩下 [ 確定 ] 將 URL 新增至網站地圖。 將會更新sitemap.xml檔案(如果檔案不存在則建立),其內容看起來會如下所示:

<urlset>
  <url>
    <loc>http://myblog/2009/03/11/CongratulationsYouveInstalledDasBlogWithWebDeploy.aspx</loc>
    <lastmod>2009-06-03T16:05:02</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.5</priority>
  </url>
  <url>
    <loc>http://myblog/2009/06/02/ASPNETAndURLRewriting.aspx</loc>
    <lastmod>2009-06-03T16:05:01</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.5</priority>
  </url>
</urlset>

將 sitemap 位置新增至Robots.txt檔案

現在您已建立網站地圖,您必須讓搜尋引擎知道其所在位置,以便他們開始使用。 若要這樣做,最簡單的方式是將月臺地圖位置 URL 新增至Robots.txt檔案。

在 [月臺地圖] 和 [月臺地圖索引] 功能中,選擇您剛才建立的月臺地圖,然後按兩下 [動作] 窗格中的 [新增至Robots.txt

[I S 管理員] 視窗和 [將 Sitemap 新增至機器人] 文字對話框的螢幕快照。

您的Robots.txt檔案看起來會如下所示:

User-agent: *
Disallow: /EditService.asmx/
Disallow: /images/
Disallow: /scripts/
Disallow: /SyndicationService.asmx/
Disallow: /EditConfig.aspx
Disallow: /Login.aspx

Sitemap: http://myblog/sitemap.xml

向搜尋引擎註冊網站地圖

除了將網站地圖位置新增至Robots.txt檔案之外,建議您將網站地圖位置 URL 提交至主要搜尋引擎。 這可讓您從搜尋引擎的 Webmasters 工具取得網站的相關實用狀態和統計數據。

摘要

在本逐步解說中,您已瞭解如何使用 IIS 搜尋引擎優化工具組的機器人排除和網站地圖和網站地圖索引功能來管理網站上的Robots.txt和網站地圖檔案。 IIS 搜尋引擎優化工具組提供整合式工具,可協助您在搜尋引擎開始使用之前撰寫和驗證Robots.txt和網站地圖檔案的正確性。