Gerenciamento de arquivos de Mapa do Site e Robots.txt

com Ruslan Yakushev

O Kit de Ferramentas de Otimização do Mecanismo de Pesquisa do IIS inclui um recurso de Exclusão de Robôs, que você pode usar para gerenciar o conteúdo do arquivo Robots.txt para seu site, e o recurso Mapas do Site e Índices do Mapa do Site, que você pode usar para gerenciar os mapas do site. Este passo a passo explica como e por que usar esses recursos.

Tela de fundo

Os rastreadores do mecanismo de pesquisa gastarão tempo e recursos limitados em seu site. Portanto, é essencial fazer o seguinte:

  1. Impedir que os rastreadores indexem conteúdo que não é importante ou que não deve ser exibido nas páginas de resultados da pesquisa.
  2. Apontar os rastreadores para o conteúdo que você considera mais importante para indexação.

Há dois protocolos que geralmente são usados para realizar essas tarefas: o protocolo de Exclusão de Robôs e o protocolo de Mapas do Site.

O protocolo de Exclusão de Robôs é usado para informar aos rastreadores do mecanismo de pesquisa quais URLs eles NÃO devem solicitar ao rastrear um site. As instruções de exclusão são colocadas em um arquivo de texto chamado Robots.txt, que está localizado na raiz do site. A maioria dos rastreadores do mecanismo de pesquisa geralmente procura esse arquivo e segue as instruções nele.

O protocolo de Mapas do Site é usado para informar os rastreadores do mecanismo de pesquisa sobre URLs disponíveis para rastreamento em seu site. Além disso, os Mapas do Site são usados para fornecer alguns metadados adicionais sobre as URLs do site, como hora da última modificação, frequência de modificação, prioridade relativa etc. Os mecanismos de pesquisa podem usar esses metadados ao indexar seu site.

Pré-requisitos

1. Configurar um site ou um aplicativo

Para concluir este passo a passo, será necessário um site hospedado do IIS 7 ou superior ou um aplicativo Web controlado por você. Se você não tiver isso, poderá instalar um da Galeria de Aplicativos Web da Microsoft. Para fins deste passo a passo, usaremos o aplicativo popular de blog DasBlog.

2. Analisar o site

Depois de ter um site ou um aplicativo Web, o ideal é analisá-lo para entender como um mecanismo de pesquisa típico rastreará seu conteúdo. Para fazer isso, siga as etapas descritas nos artigos "Usar a Análise de Site para rastrear um site" e "Usar Relatórios de análise de site". Ao fazer sua análise, você provavelmente observará que tem certas URLs disponíveis para os mecanismos de pesquisa rastrearem, mas que não há nenhum benefício real em tê-las sendo rastreadas ou indexadas. Por exemplo, páginas de logon ou páginas de recursos não devem ser solicitadas pelos rastreadores do mecanismo de pesquisa. URLs como essas devem ser ocultadas dos mecanismos de pesquisa adicionando-as ao arquivo Robots.txt.

Gerenciar o arquivo Robots.txt

Você pode usar o recurso Exclusão de Robôs do Kit de Ferramentas de SEO do IIS para criar um arquivo Robots.txt que informa aos mecanismos de pesquisa quais partes do site não devem ser rastreadas ou indexadas. As etapas a seguir descrevem como usar essa ferramenta.

  1. Abra o Console de Gerenciamento do IIS digitando INETMGR no menu Iniciar.
  2. Navegue até seu site usando o modo de exibição de árvore no lado esquerdo (por exemplo, Site Padrão).
  3. Clique no ícone da Otimização do Mecanismo de Pesquisa na seção Gerenciamento:
    Captura de tela mostrando os ícones da seção Gerenciamento.
  4. Na página principal de SEO, clique no link de tarefa "Adicionar uma nova regra de não permissão" na seção Exclusão de Robôs.
    Captura de tela mostrando a exclusão de robôs na seção Search Engine Optimization.

Adicionar regras de permissão e não permissão

A caixa de diálogo "Adicionar Regras de Não Permissão" será aberta automaticamente:

Captura de tela mostrando a caixa de diálogo Adicionar Regras de Não Permitição. A lista de estrutura U R L é expandida e Da Análise do Site (meublog) é selecionada.

O protocolo de Exclusão de Robôs usa diretivas "Permitir" e "Não permitir" para informar os mecanismos de pesquisa sobre caminhos de URL que podem ser rastreados e os que não podem. Essas diretivas podem ser especificadas para todos os mecanismos de pesquisa ou para agentes do usuário específicos identificados por um cabeçalho HTTP do agente do usuário. Na caixa de diálogo "Adicionar Regras de Não Permissão", você pode especificar a qual rastreador do mecanismo de pesquisa a diretiva se aplica inserindo o agente do usuário do rastreador no campo "Robô (Agente do Usuário)".

O modo de exibição de árvore Caminho da URL é usado para selecionar quais URLs não devem ser permitidas. Você pode escolher entre várias opções ao selecionar os caminhos de URL usando a lista suspensa "Estrutura de URL":

  • Local Físico – você pode escolher os caminhos no layout do sistema de arquivos físico do seu site.
  • Na Análise de Site (nome da análise) – você pode escolher caminhos da estrutura de URL virtual que foi descoberta quando o site foi analisado com a ferramenta Análise de Site do IIS.
  • <Executar nova Análise de Site...> – você pode executar uma nova análise de site para obter a estrutura de URL virtual do site e selecionar caminhos de URL nela.

Depois de concluir as etapas descritas na seção de pré-requisitos, você terá uma análise de site disponível. Escolha a análise na lista suspensa e verifique as URLs que precisam ser ocultadas dos mecanismos de pesquisa usando as caixas de seleção no modo de exibição de árvore "Caminhos da URL":

Captura de tela da caixa de diálogo Adicionar Regras de Não Permitido. Os caminhos U R L selecionados aparecem em Caminhos U R L Não permitidos.

Depois de selecionar todos os diretórios e arquivos que não devem ser permitidos, clique em OK. Você verá as novas entradas de não permissão no modo de exibição de recurso principal:

Captura de tela da janela Exclusão de robôs. Caminhos não permitidos são mostrados no painel principal.

Além disso, o arquivo Robots.txt do site será atualizado (ou criado se ele não existir). Seu conteúdo será semelhante a este:

User-agent: *
Disallow: /EditConfig.aspx
Disallow: /EditService.asmx/
Disallow: /images/
Disallow: /Login.aspx
Disallow: /scripts/
Disallow: /SyndicationService.asmx/

Para ver como Robots.txt funciona, volte para o recurso Análise de Site e execute novamente a análise do site. Na página Resumo de Relatórios, na categoria Links, escolha Links Bloqueados por Robots.txt. Este relatório exibirá todos os links que não foram rastreados porque eles não foram permitidos pelo arquivo Robots.txt que você acabou de criar.

Captura de tela da janela Relatório de Análise do Site. Uma lista de links bloqueados aparece no painel principal.

Gerenciar arquivos do Mapa do Site

Você pode usar o recurso Mapas do Site e Índices de Mapa do Site do Kit de Ferramentas de SEO do IIS para criar mapas de site em seu site para informar os mecanismos de pesquisa das páginas que devem ser rastreadas e indexadas. Para fazer isso, siga estas etapas:

  1. Abra o Gerente do IIS digitando INETMGR no menu Iniciar.
  2. Navegue até seu site usando o modo de exibição de árvore à esquerda.
  3. Clique no ícone da Otimização do Mecanismo de Pesquisa na seção Gerenciamento:
    Captura de tela mostrando o ícone Search Engine Optimization.
  4. Na página principal de SEO, clique no link da tarefa "Criar um mapa do site" na seção Mapas do Site e Índices de Mapa do Site.
    Captura de tela mostrando Sitemaps e Índices de Sitemaps na seção Search Engine Optimization.
  5. A caixa de diálogo Adicionar mapa do site será aberta automaticamente.
    Captura de tela mostrando a janela Sitemaps e Índices de Sitemaps com a caixa de diálogo Novo Sitemap.
  6. Digite um nome para o arquivo de mapa do site e clique em OK. A caixa de diálogo Adicionar URLs é exibida.

Adicionar URLs ao mapa do site

A caixa de diálogo Adicionar URLs tem esta aparência:

Captura de tela da caixa de diálogo Adicionar U R Ls mostrando a exibição da árvore de caminho do caminho U R L do myblog.

O arquivo Mapas do Site é basicamente um arquivo XML simples que lista URLs juntamente com alguns metadados, como frequência de alteração, data da última modificação e prioridade relativa. Use a caixa de diálogo Adicionar URLs para adicionar novas entradas de URL ao arquivo xml do Mapa do Site. Cada URL no mapa do site deve estar em um formato de URI totalmente qualificado (ou seja, deve incluir o prefixo de protocolo e o nome de domínio). Portanto, a primeira coisa que você precisa especificar é o domínio que será usado para as URLs que você adicionará ao mapa do site.

O modo de exibição de árvore Caminho da URL é usado para selecionar quais URLs devem ser adicionadas ao mapa do site para indexação. Você pode escolher entre várias opções usando a lista suspensa "Estrutura de URL":

  • Local Físico – você pode escolher as URLs no layout do sistema de arquivos físico do seu site.
  • Na Análise de Site (nome da análise) – você pode escolher URLs na estrutura de URL virtual que foi descoberta quando o site foi analisado com a ferramenta Análise de Site.
  • <Executar nova Análise de Site...> – você pode executar uma nova análise de site para obter a estrutura de URL virtual do site e selecionar caminhos de URL nela que você deseja adicionar para indexação.

Depois de concluir as etapas descritas na seção de pré-requisitos, você terá uma análise de site disponível. Escolha-a na lista suspensa e verifique as URLs que precisam ser adicionadas ao mapa do site.

Se necessário, modifique as opções Frequência de Alteração, Data da Última Modificação e Prioridade e clique em OK para adicionar as URLs ao mapa do site. Um arquivo sitemap.xml será atualizado (ou criado se ele não existir), e seu conteúdo será semelhante ao seguinte:

<urlset>
  <url>
    <loc>http://myblog/2009/03/11/CongratulationsYouveInstalledDasBlogWithWebDeploy.aspx</loc>
    <lastmod>2009-06-03T16:05:02</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.5</priority>
  </url>
  <url>
    <loc>http://myblog/2009/06/02/ASPNETAndURLRewriting.aspx</loc>
    <lastmod>2009-06-03T16:05:01</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.5</priority>
  </url>
</urlset>

Adicionar o local do mapa do site ao arquivo Robots.txt

Agora que você criou um mapa do site, precisará informar aos mecanismos de pesquisa onde ele está localizado para que eles possam começar a usá-lo. A maneira mais simples de fazer isso é adicionar a URL de localização do mapa do site ao arquivo Robots.txt.

No recurso Mapas do site e Índices de Mapa do Site, escolha o mapa do site que você acabou de criar e clique em Adicionar a Robots.txt no painel Ações:

Captura de tela da janela I I S Manager e da caixa de diálogo de texto Adicionar Sitemap a Robôs.

O arquivo Robots.txt será semelhante ao seguinte:

User-agent: *
Disallow: /EditService.asmx/
Disallow: /images/
Disallow: /scripts/
Disallow: /SyndicationService.asmx/
Disallow: /EditConfig.aspx
Disallow: /Login.aspx

Sitemap: http://myblog/sitemap.xml

Registrar mapas do site com mecanismos de pesquisa

Além de adicionar o local do mapa do site ao arquivo Robots.txt, é recomendável que você envie a URL de localização do mapa do site para os principais mecanismos de pesquisa. Isso permitirá que você obtenha status e estatísticas úteis sobre seu site nas ferramentas do Webmasters do mecanismo de pesquisa.

Resumo

Neste passo a passo, você aprendeu a usar os recursos de Exclusão de Robôs e Mapas do Site e Índices de Mapa do Site do Kit de Ferramentas de Otimização do Mecanismo de Pesquisa do IIS para gerenciar os arquivos Robots.txt e de mapa do site em seu site. O Kit de Ferramentas de Otimização do Mecanismo de Pesquisa do IIS fornece um conjunto integrado de ferramentas que funcionam em conjunto para ajudar você a criar e validar a correção dos arquivos Robots.txt e mapa do site antes que os mecanismos de pesquisa comecem a usá-los.