Cómo escribir un archivo Robots.txt


Recomendamos encarecidamente que todos los usuarios se actualicen a la versión 7.0 de Microsoft Internet Information Services (IIS) que se ejecuta en Microsoft Windows Server 2008. IIS 7.0 aumenta considerablemente la seguridad de la infraestructura web. Para obtener más información sobre temas relacionados con la seguridad de IIS, visite el siguiente sitio web de Microsoft:Para obtener más información sobre IIS 7.0, visite el siguiente sitio web de Microsoft:

Resumen


Web Spider, a menudo llamados Robots, son los motores de búsqueda WWW "rastrea" en todas las páginas de índice y de Internet en los servidores Web. Una araña Web entonces será que la información del catálogo y ponerlo a disposición a Internet para realizar búsquedas. Esto facilita a los usuarios buscar información específica en Internet al permitir "soluciones integradas" a través del sitio WWW de la araña. La mayoría de los Robots también dar prioridad a los documentos que están en Internet, permitiendo que los resultados de la búsqueda "puntuación" o por orden de coincidencias más probables en una búsqueda. Un archivo Robots.txt es un archivo de texto especial que siempre se encuentra en el directorio de raíz del servidor Web. Este archivo contiene restricciones para Web arañas, diciéndoles que tienen permiso para buscar. Debe tenerse en cuenta que no es necesario que los Robots de Web respete los archivos Robots.txt, pero más bien escrita arañas Web siga las reglas que defina.

Más información


Un Robot se identifica cuando navega por el sitio que se conoce como "User-agent" y aparece en los registros de IIS. Por lo general, el flujo de eventos cuando una araña Web rastrea su sitio es similar a la siguiente:
  1. El Robot pide el archivo/robots.txt y busca un "User-agent:" línea que hace referencia a él específicamente.
    • Si encuentra una entrada para sí mismo, como "User-agent: WebRobot,", a continuación, sigue las reglas que pertenecen a ella.
    • Si es no encuentra una entrada para sí mismo, busca un conjunto global de reglas, como "User-agent: *," y obedece las reglas.
    • Si el Robot tiene una entrada para sí mismo y también hay un conjunto global de reglas, reglas personales del Robot reemplazará las reglas globales.
  2. Reglas para un agente de usuario se configuran como "Disallow:" instrucciones que indican un robot en el no se puede buscar. Una instrucción de no permitir se aplica a cualquier dirección que han sido solicitado por el Robot. Por ejemplo:
    • "No permitir: Test" hace que un Spider Web omitir /test/index.htm y así sucesivamente.
    • "No permitir: /" hace que un Spider Web Omitir todo el sitio; a veces es deseable.
    • "No permitir:" permite una araña Web rastrear todo el sitio.
  3. Las líneas que comienzan con el símbolo de almohadilla (#) indican comentarios, que pueden ser útiles crear largos conjuntos de reglas. Ejemplos
    • Este ejemplo impide todas las arañas Web para todo el sitio:
      # Make changes for all web spidersUser-agent: *Disallow: / 
    • En el ejemplo siguiente se impide la ejecución de un Robot denominado "WebSpider" de las rutas de acceso virtuales "/ marketing" y "/ venta":
      # Tell "WebSpider" where it can't goUser-agent: WebSpiderDisallow: /marketingDisallow: /sales# Allow all other robots to browse everywhereUser-agent: *Disallow:
    • Este ejemplo permite sólo una araña de Web denominada "SpiderOne" en un sitio y denegar todas las demás arañas:
      # Allow "SpiderOne" in the siteUser-agent: SpiderOneDisallow:# Deny all other spidersUser-agent: *Disallow: / 
    • Este último ejemplo no permite rutas de acceso relacionadas con FrontPage en la raíz de su sitio Web:
      # Ignore FrontPage filesUser-agent: *Disallow: /_bordersDisallow: /_derivedDisallow: /_fpclassDisallow: /_overlayDisallow: /_privateDisallow: /_themesDisallow: /_vti_binDisallow: /_vti_cnfDisallow: /_vti_logDisallow: /_vti_mapDisallow: /_vti_pvtDisallow: /_vti_txt
Para obtener más información sobre cómo escribir archivos Robots.txt, consulte los siguientes sitios Web: