如何撰寫一個 Robots.txt 檔案


我們強烈建議所有的使用者升級到 Microsoft Internet Information Services (IIS) 7.0 版,以在 Microsoft Windows Server 2008 上執行。 IIS 7.0 能夠大幅提升網頁基礎結構的安全性。如需有關 IIS 安全性相關的主題的詳細資訊,請造訪下列 Microsoft 網站:如需有關 IIS 7.0 的詳細資訊,請造訪下列 Microsoft 網站:

摘要


Web 蜘蛛,通常稱為機器人,是 「 耙梳"跨網際網路及索引頁在 Web 伺服器的 WWW 搜尋引擎。Web 連環新然後將目錄資訊,並讓它使用網際網路搜尋。這可簡化使用者透過蜘蛛的 WWW 的站台,藉由使用 「 一次採購 」 尋找網際網路上的特定資訊。大部分的機器人也排定優先順序是在網際網路上,讓搜尋結果僅限於 「 分數 」 或排列順序的最可能的相符項目上搜尋的文件。Robots.txt 檔案是特殊的文字檔,永遠位於 Web 伺服器的根目錄。這個檔案包含 Web 蜘蛛,告訴他們能夠讓搜尋的權限的限制。請注意,不需要 Web 機器製作尊重 Robots.txt 檔案中,但良好書面的 Web 蜘蛛遵循您所定義的規則。

其他相關資訊


當它瀏覽您的網站,就所謂的 「 使用者-代理程式 」,並在 iis 中的記錄檔中顯示時,一個機器人識別本身。一般而言,當 Web 蜘蛛尋檢您的網站時的事件流量沒有受到類似下列:
  1. 傀儡程式會詢問 /robots.txt 檔案,並會尋找參考該檔案的「使用者代理程式:」行。
    • 如果找到一個項目本身,例如"使用者代理程式: WebRobot,"然後看來與它相關的規則。
    • 如果是找不到項目為其本身,它會尋找一組全域的規則,例如"使用者代理程式: *,",應遵循所那些規則。
    • 如果機器人為其本身都有項目,也會出現一組全域規則,機器人的個人規則將會取代通用的規則。
  2. 使用者代理程式的規則已設定為 「 不允許]:"告訴它無法在此對話方塊搜尋的機器人的陳述式。禁止選擇陳述式會套用到任何可能機器人所要求的位址。例如:
    • "禁止: / 測試 」 會導致 Web 蜘蛛,忽略 /test/index.htm,以此類推。
    • "禁止: /"會導致略過整個的站台; Web 連環新接龍有時候,這是令人滿意。
    • "禁止:"允許 Web 蜘蛛,以便耙梳整個站台。
  3. 以井字符號 (#) 為開頭的行代表註解,這會很有用,當建立長的規則集。範例
    • 本範例不允許將整個網站的所有 Web 蜘蛛:
      # Make changes for all web spidersUser-agent: *Disallow: / 
    • 下列範例不允許一個名為"WebSpider",從虛擬路徑的機器人"/ 行銷"和"/ 銷售":
      # Tell "WebSpider" where it can't goUser-agent: WebSpiderDisallow: /marketingDisallow: /sales# Allow all other robots to browse everywhereUser-agent: *Disallow:
    • 此範例只允許稱為「SpiderOne」的 Web 編目程式造訪網站,同時拒絕其他所有的編目程式:
      # Allow "SpiderOne" in the siteUser-agent: SpiderOneDisallow:# Deny all other spidersUser-agent: *Disallow: / 
    • 最後這個範例不允許您的網站的根目錄中的 [FrontPage 相關路徑:
      # Ignore FrontPage filesUser-agent: *Disallow: /_bordersDisallow: /_derivedDisallow: /_fpclassDisallow: /_overlayDisallow: /_privateDisallow: /_themesDisallow: /_vti_binDisallow: /_vti_cnfDisallow: /_vti_logDisallow: /_vti_mapDisallow: /_vti_pvtDisallow: /_vti_txt
如需有關如何撰寫 Robots.txt 檔案的詳細資訊,請參閱下列網站取得: