文章编号: 217103 - 最后修改: 2008年7月7日 - 修订: 4.2

如何编写一个 robots.txt

系统提示此文章适用于与您所使用的操作系统不同的操作系统。文章内容可能与您无关,并且已被禁用。
我们强烈建议所有用户都升级到 IIS 7.0 版 Microsoft Internet Information Services Microsoft Windows Server 2008 上运行。 IIS 7.0 大大提高了 Web 基础结构安全。有关 IIS 的详细信息与安全相关的主题,请访问下面的 Microsoft 网站:
http://www.microsoft.com/technet/security/prodtech/IIS.mspx (http://www.microsoft.com/technet/security/prodtech/IIS.mspx)
有关 IIS 7.0 的详细信息,请访问下面的 Microsoft 网站:
http://www.iis.net/default.aspx?tabid=1 (http://www.iis.net/default.aspx?tabid=1)
展开全部 | 关闭全部

概要

web spider,通常称为自动机,""在 Internet 和索引页爬网的 Web 服务器的 WWW 搜索引擎。Web 蜘蛛然后将该信息的目录并使其可用于搜索 Internet。这使得用户更轻松地通过蜘蛛的 WWW 站点通过允许"一站式购物"找到在 Internet 上的特定信息。大多数自动机还确定是允许"评定"或在 $ 搜索上的最有可能匹配项的顺序排列的搜索结果的在 Internet 上的文档的优先级。

一个 robots.txt 是一个特殊的文本文件,总是位于 Web 服务器的根目录中。此文件包含 Web spider,告诉他们他们有权搜索的位置的限制。值得注意的是 Web 自动机无需遵守 Robots.txt 文件,但最编写得很好的 Web spider 遵循您定义的规则。

更多信息

一个自动机将自身标识其浏览您站点的被称为"用户-代理",iis 会出现在日志时。通常,Web 蜘蛛对您的网站进行爬网时的事件流是类似于以下内容:
  1. 在自动机索要 /robots.txt 文件,查找一个"用户代理:"指的是它专门的行。
    • 如果找到一个条目本身,如"用户代理: WebRobot,"然后它遵循与它相关的规则。
    • 如果是未找到条目为其自身,它会查找一个全局组规则,如"用户代理: *,"并遵循这些规则。
    • 如果在自动机为自己有一项,并且还存在一个全局组的规则,则自动机的个人规则将取代全局规则。
  2. 用户代理的规则必须设置为"不允许:"告诉机器人,它不能在其中搜索的语句。disallow 语句应用于任何可能情况将自动机请求的地址。例如:
    • "禁止:/测试"将导致一个 Web 蜘蛛忽略 /test/index.htm,等等。
    • "禁止: /"将导致忽略整个站点中 ; 一个 Web 蜘蛛有时这是比较理想。
    • "不允许:"允许在整个站点进行爬网的 Web 蜘蛛。
  3. 英镑符号 (#) 开头的行,表示创建长的集时,会很有用的注释规则。 示例

    • 本示例禁止为整个站点的所有 Web spider:
      # Make changes for all web spiders
      User-agent: *
      Disallow: / 
      						
    • 下面的示例不允许从虚拟路径中名为"WebSpider"一个自动机 / 市场营销和 / 销售:
      # Tell "WebSpider" where it can't go
      User-agent: WebSpider
      Disallow: /marketing
      Disallow: /sales
      
      # Allow all other robots to browse everywhere
      User-agent: *
      Disallow:
      						
    • 本示例允许同时拒绝所有其他 spider 命名 SpiderOne 入一个站点一个 Web 蜘蛛:
      # Allow "SpiderOne" in the site
      User-agent: SpiderOne
      Disallow:
      
      # Deny all other spiders
      User-agent: *
      Disallow: / 
      						
    • 此最后一个示例是不允许您的 Web 站点的根目录中的 FrontPage 相关的路径:
      # Ignore FrontPage files
      User-agent: *
      Disallow: /_borders
      Disallow: /_derived
      Disallow: /_fpclass
      Disallow: /_overlay
      Disallow: /_private
      Disallow: /_themes
      Disallow: /_vti_bin
      Disallow: /_vti_cnf
      Disallow: /_vti_log
      Disallow: /_vti_map
      Disallow: /_vti_pvt
      Disallow: /_vti_txt
      						
有关编写 Robots.txt 文件的详细信息,请参阅以下网站:
http://www.robotstxt.org/orig.html (http://www.robotstxt.org/orig.html)

http://www.robotstxt.org/wc/faq.html (http://www.robotstxt.org/wc/faq.html)

http://www.robotstxt.org/ (http://www.robotstxt.org/)

这篇文章中的信息适用于:
  • Microsoft Internet Information Services 6.0
  • Microsoft Internet Information Server 1.0
  • Microsoft Internet Information Server 2.0
  • Microsoft Internet Information Server 3.0
  • Microsoft Internet Information Server 4.0
  • Microsoft Internet Information Services 5.0
  • Microsoft Internet Information Services 7.0
关键字:?
kbmt kbhowto KB217103 KbMtzh
机器翻译机器翻译
注意:这篇文章是由无人工介入的微软自动的机器翻译软件翻译完成。微软很高兴能同时提供给您由人工翻译的和由机器翻译的文章, 以使您能使用您的语言访问所有的知识库文章。然而由机器翻译的文章并不总是完美的。它可能存在词汇,语法或文法的问题,就像是一个外国人在说中文时总是可能犯这样的错误。虽然我们经常升级机器翻译软件以提高翻译质量,但是我们不保证机器翻译的正确度,也不对由于内容的误译或者客户对它的错误使用所引起的任何直接的, 或间接的可能的问题负责。
点击这里察看该文章的英文版: 217103? (http://support.microsoft.com/kb/217103/en-us/ )
Microsoft和/或其各供应商对于为任何目的而在本服务器上发布的文件及有关图形所含信息的适用性,不作任何声明。 所有该等文件及有关图形均"依样"提供,而不带任何性质的保证。Microsoft和/或其各供应商特此声明,对所有与该等信息有关的保证和条件不负任何责任,该等保证和条件包括关于适销性、符合特定用途、所有权和非侵权的所有默示保证和条件。在任何情况下,在由于使用或运行本服务器上的信息所引起的或与该等使用或运行有关的诉讼中,Microsoft和/或其各供应商就因丧失使用、数据或利润所导致的任何特别的、间接的、衍生性的损害或任何因使用而丧失所导致的之损害、数据或利润不负任何责任。