Indexação de sites na Internet

O suporte para o Office 2003 terminou

A Microsoft terminou o suporte para o Office 2003 em 8 de abril de 2014. Esta alteração afetou as suas atualizações de software e opções de segurança. Saiba o que isto significa para você e como permanecer protegido.

IMPORTANTE: Este artigo foi traduzido por um sistema de tradução automática (também designado por Machine Translation ou MT), não tendo sido portanto traduzido ou revisto por pessoas. A Microsoft possui artigos traduzidos por aplicações (MT) e artigos traduzidos por tradutores profissionais, com o objetivo de oferecer em português a totalidade dos artigos existentes na base de dados de suporte. No entanto, a tradução automática não é sempre perfeita, podendo conter erros de vocabulário, sintaxe ou gramática. A Microsoft não é responsável por incoerências, erros ou prejuízos ocorridos em decorrência da utilização dos artigos MT por parte dos nossos clientes. A Microsoft realiza atualizações freqüentes ao software de tradução automática (MT). Obrigado.

Clique aqui para ver a versão em Inglês deste artigo: 284022
Este artigo foi arquivado. É oferecido "como está" e não será mais atualizado.
importante : Este artigo contém informações sobre como modificar o registro. Antes de modificar o registro, certifique-se de backup e certifique-se que você saiba como restaurar o registro se ocorrer um problema. Para obter informações sobre como fazer backup, restaurar e editar o registro, clique no número abaixo para ler o artigo na Base de dados de Conhecimento da Microsoft:
256986Descrição do registro do Microsoft Windows
Sumário
Este artigo descreve as considerações que você precisa levar em conta quando você cria uma fonte de conteúdo de site para um site público.
Mais Informações
Se você compreender as considerações a seguir, você pode garantir que você execute a indexação da maneira mais eficiente, sem causar efeitos adversos para os sites. Noções básicas sobre as considerações a seguir também pode ajudar você ao solucionar problemas comuns de indexação.

Controlando o acesso rastreador com um arquivo robots.txt e marcas de META de HTML

Um administrador do site pode usar um arquivo robots.txt para indicar onde os robôs (rastreadores da Web) podem ir em um site da Web e se deve ou não excluir rastreadores específicos. Servidores Web usar essas regras para controlar o acesso a sites, impedindo que robôs acessar determinadas áreas. Microsoft SharePoint Portal Server 2001 e Microsoft Office SharePoint Portal Server 2003 sempre procurar esse arquivo ao rastreamento e cumprir as restrições nela.

Um administrador do site pode também restringir o acesso a determinados documentos usando marcas META de HTML (Hypertext Markup Language). Essas marcas informam o robô se ele pode incluir o documento no índice e se ele pode siga os links no documento usando o INDEX/NOINDEX e FOLLOW/NOFOLLOW atributos na marca. Por exemplo, se desejar o documento a ser rastreado e você não deseja links no documento a ser seguido, você pode marcar um documento com a seguinte marca:
<META name="robots" content= "noindex, nofollow">
SharePoint Portal Server sempre obeys as regras HTML de exclusão de robôs quando o SharePoint Portal Server rastrear sites da Web. Observe que as exclusões de robôs são contadas como exclusões de regra (que não são visíveis no Visualizador de log do gatherer por padrão) pelo SharePoint Portal Server. Consulte a seção "Informações de log do coletor" deste artigo para obter informações adicionais sobre como exibir os logs do coletor.

Arquivos robots.txt especificam restrições para cada agente do usuário. Altere a seqüência User Agent para identificar seu site quando o rastreamento da Internet. Por padrão, a seqüência de caracteres para o SharePoint Portal Server é:
Mozilla/4.0 (compatível; MSIE 4.01, Windows NT; MS Search 4.0 robô) Microsoft
Para adicionar seu identificador, você precisará modificar o registro.

Aviso : se você usar o Editor do Registro incorretamente, poderá causar problemas sérios que talvez exijam a reinstalação do sistema operacional. A Microsoft não garante que você pode resolver problemas resultantes do uso incorreto do Editor do Registro. Use o Editor do registro por sua própria conta e risco.

Para adicionar seu identificador, adicione a chave do registro que seja apropriada para sua versão do SharePoint Portal Server:

Para o Microsoft SharePoint Portal Server 2001, adicione a seguinte chave:
HKEY_LOCAL_MACHINE\Software\Microsoft\Search\1.0\Gathering Manager\UserAgent
Para Microsoft Office SharePoint Portal Server 2003, adicione a seguinte chave:
HKEY_LOCAL_MACHINE\Software\Microsoft\SPSSearch\Gathering Manager

Seguir links complexos

Por padrão, o SharePoint Portal Server não segue links complexos (links que contêm comandos após um ponto de interrogação na URL; por exemplo, http://www.mysite.com/default.asp?url=/somedir/somefile.htm). Se o site que você está rastreando contiver links complexos que você deseja seguir, você deve criar uma regra de caminho de site para o site:
  1. Na pasta Gerenciamento/Content Sources, clique em Configurações adicionais .
  2. Clique em Caminhos de site e, em seguida, clique em novo .
  3. Digite a URL do site, verifique se você colocar um caractere curinga no final e, em seguida, clique em incluir este caminho .
  4. Clique em Opções e, em seguida, clique em Ativar links complexos . Se a seleção não estiver disponível (aparece esmaecida), verifique se digitou uma URL formada corretamente com um caractere curinga no final na etapa 3 (por exemplo, http://www.microsoft.com/*).

Rastreamento sites protegida por senha

Não é possível especificar credenciais na URL que você especificar para uma fonte de conteúdo de um site da Web. Se desejar rastrear um site protegido por senha, criar uma regra de caminho de site. Execute as etapas 1 a 3 na seção "Seguir links complexos" deste artigo para criar a regra de caminho de site. Clique na guia Opções , clique na guia conta e, em seguida, forneça o nome de usuário e a senha.

Noções básicas sobre se um tipo de arquivo que é referenciado em um link pode ser excluído

Cada espaço de trabalho mantém uma lista de inclusão de tipo de arquivo e quando fontes de conteúdo é indexado, somente esses tipos de arquivo estão indexados. Se um link de site fizer referência a um tipo de arquivo excluído, o link não é seguido e é registrado como uma exclusão de regra. Um exemplo é um link, como:
http://www.mysite.com/Index.cfm?ArticleID=q284022
A menos que .cfm é adicionado à lista de inclusão de tipos de arquivo, o link não é seguido.

Adicionar configurações de servidor proxy

Se sua rede usa um servidor proxy para acessar a Internet, você deve fornecer o proxy informações do servidor para que o SharePoint Portal Server rastreador pode usar essas informações. Essas informações são configuradas na guia Servidor Proxy das propriedades do servidor no SharePoint Portal Server Administration console. Essas informações são usadas somente por pesquisa e, se você alterar as informações nesse local, você não afeta as configurações que são configuradas no Microsoft Internet Explorer.

Configurar host saltos

Quando você cria uma fonte de conteúdo de um site da Web, você optar por índice esta página ou este site . Quando você selecionar este site , todos os links para páginas dentro desse site são seguidos, mas links para outros sites da Web não estão. Isso pode causar uma falha de índice de imediato, se você tentar indexar um site no qual a página padrão executa um redirecionamento imediato para outro site (por exemplo, se você conectar-se a http:// my_site .com e você é redirecionado para uma página padrão em http:// my_alternate_site .com). Nesse caso, ou se desejar que o rastreador para seguir links para outros sites, você deve configurar saltos um host personalizado configuração. Você pode definir saltos de host na guia configuração das propriedades de fonte de conteúdo de site.

importante : limitar o número de saltos site para o número mínimo absoluto necessário. Quando você executa um rastreamento de Internet, você pode indexar milhões de documentos em apenas alguns saltos de site. Se você definir o número de saltos de site em uma fonte de conteúdo de site para ilimitado (, clicando em Personalizar e, em seguida, clicando para desmarcar as caixas de seleção Limitar saltos de site e Limitar prof. de página ), você deve incluir uma regra de caminho de site que inclua especificamente essa fonte de conteúdo no índice. Caso contrário, a fonte de conteúdo é automaticamente excluída do índice para evitar rastreamento ilimitado. A estratégia de regra de caminho de site é recomendada quando você está rastreando sites é criar uma regra de exclusão para todo o URL HTTP espaço (http://*) e, em seguida, criar regras de inclusão para somente aqueles sites que você deseja indexar.

Sendo uma consideração rastreador

Quando rastrear do alguém site, você aumenta a carga no servidor. Você pode usar regras de freqüência para evitar a sobrecarga de um site que você está indexando de visitas aos sites. Freqüência de visitas aos sites especificam regras de freqüência documentos são solicitados de um site e quantos documentos são solicitados. Freqüência as regras são configuradas na guia a carga propriedades do servidor no console de administração do SharePoint Portal Server visitas ao site.

Informações de log do gatherer

Quando você executa uma atualização do índice, rastreamento de atividade é registrada no gatherer logs. A maneira mais fácil de exibir os logs do coletor é usar o Visualizador de página da Web do gatherer log. Para acessar o Visualizador de log, clique no link Clique aqui para log detalhado na pasta Content Sources. Por padrão, somente mensagens de erro são exibidas no Visualizador de log. Se você deseja exibir exclusões de regra e bem-sucedidas para solução de problemas, você poderá ativar esse recurso na guia log das propriedades de espaço de trabalho no console de administração do SharePoint Portal Server. É recomendável que você não ativar essas configurações de log, a menos que você estiver ativamente solucionando como log as informações adicionais muito aumenta o tamanho do arquivo de log.

Você também pode exibir exclusões com êxito e regra usando o utilitário gthrlog.vbs, um utilitário de linha de comando que está na pasta Support\Tools no CD-ROM do SharePoint Portal Server.

Aviso: este artigo foi traduzido automaticamente

Propriedades

ID do Artigo: 284022 - Última Revisão: 12/05/2015 23:40:41 - Revisão: 3.3

Microsoft SharePoint Portal Server 2001, Microsoft Office SharePoint Portal Server 2003

  • kbnosurvey kbarchive kbmt kbproductlink kbinfo KB284022 KbMtpt
Comentários