Administrar los archivos Robots.txt y de mapa del sitio

por Ruslan Yakushev

El kit de herramientas de optimización del motor de búsqueda de IIS incluye una función de exclusión de robots que puede usar para administrar el contenido del archivo Robots.txt para su sitio web e incluye la función de mapas del sitio e índices de mapas del sitio que puedes usar para administrar los mapas del sitio. En este tutorial se explica cómo y por qué usar estas funciones.

Fondo

Los rastreadores del motor de búsqueda dedicarán tiempo y recursos limitados en el sitio web. Por lo tanto, es fundamental hacer lo siguiente:

  1. Impedir que los rastreadores indexen el contenido que no es importante o que no deba mostrarse en las páginas de resultados de búsqueda.
  2. Dirigir a los rastreadores hacia el contenido que considere más importante para la indexación.

Hay dos protocolos que se usan habitualmente para lograr estas tareas: el protocolo de exclusión de robots y el protocolo de los mapas del sitio.

El protocolo de exclusión de robots se usa para indicar a los rastreadores de motor de búsqueda qué direcciones URL NO debe solicitar al rastrear un sitio web. Las instrucciones de exclusión se colocan en un archivo de texto denominado Robots.txt, que se encuentra en la raíz del sitio web. La mayoría de los rastreadores de los motores de búsqueda suelen buscar este archivo y seguir las instrucciones que contiene.

El protocolo de mapa del sitio se usa para informar a los rastreadores del motor de búsqueda sobre las direcciones URL que están disponibles para rastrear en su sitio web. Además, los mapas del sitio se usan para proporcionar algunos metadatos adicionales sobre las direcciones URL del sitio, como la hora de última modificación, la frecuencia de modificación, la prioridad relativa, etc. Los motores de búsqueda pueden usar estos metadatos al indexar el sitio web.

Requisitos previos

1. Configurar un sitio web o una aplicación

Para completar este tutorial, necesitará un sitio web hospedado de IIS 7 o superior o una aplicación web que controle. Si no tiene una, puede instalar una desde la galería de aplicaciones web de Microsoft. Para este tutorial, usaremos la popular aplicación de blog DasBlog.

2. Analizar el sitio web

Una vez que tenga un sitio web o una aplicación web, puede que desee analizarlo para comprender cómo un motor de búsqueda típico rastreará su contenido. Para ello, siga los pasos descritos en los artículos "Usar el análisis del sitio para reastrear un sitio web" y "Usar los informes de análisis del sitio". Al realizar el análisis, probablemente observará que tiene ciertas direcciones URL que están disponibles para que los motores de búsqueda rastreen, pero que no hay ninguna ventaja real en tenerlas rastreadas o indexadas. Por ejemplo, los rastreadores del motor de búsqueda no deben solicitar páginas de inicio de sesión ni páginas de recursos. Las direcciones URL como estas deben ocultarse en los motores de búsqueda agregándolas al archivo Robots.txt.

Administrar el archivo Robots.txt

Puede usar la función de exclusión de robots del kit de herramientas de SEO de IIS para crear un archivo Robots.txt que indica a los motores de búsqueda qué partes del sitio web no se deben rastrear ni indexar. En los siguientes pasos se describe cómo usar esta herramienta.

  1. Abra la Consola de administración de IIS escribiendo INETMGR en el menú Inicio.
  2. Vaya al sitio web mediante la vista de árbol a la izquierda (por ejemplo, sitio web predeterminado).
  3. Haga clic en el icono de optimización del motor de búsqueda en la sección de administración:
    Captura de pantalla que muestra los iconos de la sección Administración.
  4. En la página principal de SEO, haga clic en el vínculo de tarea "Agregar una nueva regla no permitida" en la sección Exclusión de robots.
    Captura de pantalla que muestra la exclusión de robots en la sección Optimización del motor de búsqueda.

Agregar reglas no permitidas y permitidas

El cuadro de diálogo "Agregar reglas no permitidas" se abrirá automáticamente:

Captura de pantalla que muestra el cuadro de diálogo Agregar reglas no permitir. La lista de estructuras de U R L se expande y se selecciona From Site Analysis (myblog).

El protocolo de exclusión de robots usa directivas "Permitir" y "No permitir" para informar a los motores de búsqueda sobre las rutas de acceso de dirección URL que se pueden o no rastrear. Estas directivas se pueden especificar para todos los motores de búsqueda o para agentes de usuario específicos identificados por un encabezado HTTP del agente de usuario. En el cuadro de diálogo "Agregar reglas no permitidas", puede especificar a qué rastreador del motor de búsqueda se aplica la directiva escribiendo el agente de usuario del rastreador en el campo "Robot (agente de usuario)".

La vista de árbol ruta de acceso URL se usa para seleccionar qué direcciones URL deben no permitirse. Puede elegir entre varias opciones al seleccionar las rutas de acceso de dirección URL mediante la lista desplegable "Estructura de direcciones URL":

  • Ubicación física: puede elegir las rutas de acceso del diseño del sistema de archivos físico del sitio web.
  • En Análisis de sitio (nombre de análisis): puede elegir rutas de acceso de la estructura de direcciones URL virtual que se detectó al analizar el sitio con la herramienta Análisis de sitio de IIS.
  • <Ejecutar nuevo análisis del sitio...>: puede ejecutar un nuevo análisis del sitio para obtener la estructura de direcciones URL virtuales del sitio web y, a continuación, seleccionar rutas de acceso de dirección URL desde allí.

Una vez completados los pasos descritos en la sección de requisitos previos, tendrá disponible un análisis del sitio. Elija el análisis en la lista desplegable y, a continuación, active las direcciones URL que deben ocultarse en los motores de búsqueda mediante las casillas de la vista de árbol "Rutas de direcciones URL":

Captura de pantalla del cuadro de diálogo Agregar reglas no permitir. Las rutas de acceso de U R L seleccionadas aparecen en Rutas de acceso de U R L no permitidas.

Después de seleccionar todos los directorios y archivos que deben no permitirse, haga clic en aceptar. Verá las nuevas entradas de no permitidas en la vista principal de la función:

Captura de pantalla de la ventana Exclusión de robots. Las rutas de acceso no permitidas se muestran en el panel principal.

Además, el archivo Robots.txt del sitio se actualizará (o se creará si no existe). El contenido será similar al siguiente:

User-agent: *
Disallow: /EditConfig.aspx
Disallow: /EditService.asmx/
Disallow: /images/
Disallow: /Login.aspx
Disallow: /scripts/
Disallow: /SyndicationService.asmx/

Para ver cómo funciona Robots.txt, vuelva a la función de Análisis del sitio y vuelva a ejecutar el análisis para el sitio. En la página Resumen de informes, en la categoría de Vínculos, elija Vínculos bloqueados por Robots.txt. Este informe mostrará todos los enlaces que no han sido rastreados porque han sido no permitidos por el archivo Robots.txt que acaba de crear.

Captura de pantalla de la ventana Informe de análisis de sitio. Aparece una lista de vínculos bloqueados en el panel principal.

Administrar archivos del mapa del sitio

Puede utilizar la función de mapas del sitio e índices de mapas del sitio del kit de herramientas de SEO de IIS para crear mapas del sitio en su sitio web e informar a los motores de búsqueda de las páginas que deben rastrearse e indexarse. Para ello, siga estos pasos:

  1. Abra el Administrador de IIS escribiendo INETMGR en el menúcInicio.
  2. Vaya al sitio web mediante la vista de árbol a la izquierda.
  3. Haga clic en el icono de optimización del motor de búsqueda en la sección de administración:
    Captura de pantalla que muestra el icono De optimización del motor de búsqueda.
  4. En la página principal de SEO, haga clic en el vínculo de tarea "Crear un nuevo mapa del sitio" dentro de la sección Mapas del sitio e Índices de los mapas del sitio.
    Captura de pantalla que muestra sitemaps e índices de mapa del sitio en la sección Optimización del motor de búsqueda.
  5. El cuadro de diálogo "Agregar mapas del sitio" se abrirá automáticamente.
    Captura de pantalla que muestra la ventana Sitemaps (Sitemaps) e Sitemap Indexes (Índices de mapa del sitio) con el cuadro de diálogo New Sitemap (Nuevo mapa del sitio).
  6. Escriba un nombre para su archivo de mapas del sitio y haga clic en Aceptar. Aparece el cuadro de diálogo Agregar dirección URL.

Agregar direcciones URL al mapa del sitio

El cuadro de diálogo Agregar direcciones URL tiene el siguiente aspecto:

Captura de pantalla del cuadro de diálogo Agregar LS de U R que muestra la vista de árbol de ruta de acceso de myblog U R L.

El archivo de mapas del sitio es básicamente un archivo XML simple que enumera las direcciones URL junto con algunos metadatos, como la frecuencia de cambio, la fecha de última modificación y la prioridad relativa. Use el cuadro de diálogo Agregar direcciones URL para agregar nuevas entradas de direcciones URL al archivo xml del mapa del sitio. Cada dirección URL del mapa del sitio debe tener un formato de URI completo (es decir, debe incluir prefijo de protocolo y nombre de dominio). Por lo tanto, lo primero que se debe especificar es el dominio que se usará para las direcciones URL que se van a agregar al mapa del sitio.

La vista de árbol ruta de direcciones URL se usa para seleccionar qué direcciones URL deben no permitirse. Puede elegir entre varias opciones mediante la lista desplegable "Estructura de direcciones URL":

  • Ubicación física: puede elegir las direcciones URL del diseño del sistema de archivos físico del sitio web.
  • En Análisis del sitio (nombre de análisis): puede elegir direcciones URL de la estructura de direcciones URL virtual que se detectó al analizar el sitio con la herramienta de Análisis del sitio.
  • <Ejecutar nuevo análisis del sitio...>: puede ejecutar un nuevo análisis del sitio para obtener la estructura de direcciones URL virtuales del sitio web y, a continuación, seleccionar las rutas de dirección URL desde allí que desea agregar para indexar.

Una vez completados los pasos de la sección de requisitos previos, tendrá disponible un análisis del sitio. Selecciónelo en la lista desplegable y, a continuación, compruebe las direcciones URL que deben agregarse al mapa del sitio.

Si es necesario, modifique las opciones de Frecuencia de cambio, Fecha de última modificación y Prioridad y, a continuación, haga clic en Aceptar para agregar las direcciones URL al mapa del sitio. Se actualizará un archivo sitemap.xml (o se creará si no existe) y su contenido tendrá un aspecto similar al siguiente:

<urlset>
  <url>
    <loc>http://myblog/2009/03/11/CongratulationsYouveInstalledDasBlogWithWebDeploy.aspx</loc>
    <lastmod>2009-06-03T16:05:02</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.5</priority>
  </url>
  <url>
    <loc>http://myblog/2009/06/02/ASPNETAndURLRewriting.aspx</loc>
    <lastmod>2009-06-03T16:05:01</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.5</priority>
  </url>
</urlset>

Agregar la ubicación del mapa del sitio al archivo Robots.txt

Ahora que se ha creado un mapa del sitio, se deberá informar a los motores de búsqueda sobre la ubicación dónde se encuentra para que puedan empezar a usarlo. La forma más sencilla de hacerlo es agregar la dirección URL de ubicación del mapa del sitio al archivo Robots.txt.

En la función de Mapas del sitio e Índices de los mapas del sitio, elija el mapa del sitio que acaba de crear y, a continuación, haga clic en Agregar a Robots.txt en el panel Acciones:

Captura de pantalla de la ventana I I S Manager y el cuadro de diálogo Agregar mapa del sitio a robots.

El archivo Robots.txt tendrá un aspecto similar al siguiente:

User-agent: *
Disallow: /EditService.asmx/
Disallow: /images/
Disallow: /scripts/
Disallow: /SyndicationService.asmx/
Disallow: /EditConfig.aspx
Disallow: /Login.aspx

Sitemap: http://myblog/sitemap.xml

Registrar mapas del sitio con motores de búsqueda

Además de agregar la ubicación del mapa del sitio al archivo Robots.txt, se recomienda enviar la dirección URL de ubicación del mapa del sitio a los motores de búsqueda principales. Esto permitirá obtener un estado útil y estadísticas sobre el sitio web desde las herramientas de administrador de web del motor de búsqueda.

Resumen

En este tutorial, ha aprendido a usar las funciones de Exclusión de robots y de Mapas del sitio e Índices de los mapas del sitio del kit de herramientas de optimización del motor de búsqueda de IIS para administrar los archivos Robots.txt y de mapa del sitio en el sitio web. El Kit de herramientas de optimización del motor de búsqueda de IIS proporciona un conjunto integrado de herramientas que funcionan conjuntamente para ayudarle a crear y validar la corrección de los archivos Robots.txt y del mapa del sitio antes de que los motores de búsqueda empiecen a usarlos.