Gestione di Robots.txt e file della Mappa del sito

di Ruslan Kashšev

IIS Search Engine Optimization Toolkit include una funzionalità di esclusione robot che è possibile usare per gestire il contenuto del file di Robots.txt per il sito Web e include la funzionalità Mappa di mappa e indici della Mappa del sito che è possibile usare per gestire le mappa del sito. Questa procedura dettagliata illustra come e perché usare queste funzionalità.

Background

I crawler del motore di ricerca impiegano tempo limitato e risorse nel sito Web. Di conseguenza, è fondamentale eseguire le operazioni seguenti:

  1. Impedire ai crawler di indicizzare il contenuto non importante o che non deve essere visualizzato nelle pagine dei risultati della ricerca.
  2. Puntare i crawler al contenuto che si ritiene più importante per l'indicizzazione.

Esistono due protocolli comunemente usati per eseguire queste attività: il protocollo di esclusione robot e il protocollo Della Mappa del sito.

Il protocollo di esclusione robot viene usato per indicare ai crawler del motore di ricerca quali URL non devono richiedere durante la ricerca per indicizzazione di un sito Web. Le istruzioni di esclusione vengono inserite in un file di testo denominato Robots.txt, che si trova nella radice del sito Web. La maggior parte dei crawler del motore di ricerca cerca in genere questo file e segui le istruzioni in esso contenute.

Il protocollo Sitemaps viene usato per informare i crawler del motore di ricerca sugli URL disponibili per la ricerca per indicizzazione nel sito Web. Inoltre, le Sitemap vengono usate per fornire alcuni metadati aggiuntivi sugli URL del sito, ad esempio l'ora dell'ultima modifica, la frequenza di modifica, la priorità relativa e così via. I motori di ricerca potrebbero usare questi metadati durante l'indicizzazione del sito Web.

Prerequisiti

1. Configurazione di un sito Web o di un'applicazione

Per completare questa procedura dettagliata, è necessario un sito Web ospitato iis 7 o versione successiva o un'applicazione Web che si controlla. Se non ne è disponibile uno, è possibile installarlo dalla raccolta di applicazioni Web Microsoft. Ai fini di questa procedura dettagliata, si userà l'applicazione di blogging popolare DasBlog.

2. Analisi del sito Web

Dopo aver creato un sito Web o un'applicazione Web, è consigliabile analizzarlo per comprendere come un tipico motore di ricerca ne eseguirà la ricerca per indicizzazione. A tale scopo, seguire i passaggi descritti negli articoli "Utilizzo dell'analisi del sito per eseguire la ricerca per indicizzazione di un sito Web" e "Utilizzo di report di analisi sito". Quando si esegue l'analisi, probabilmente si noterà che si dispone di determinati URL disponibili per la ricerca per indicizzazione dei motori di ricerca, ma che non vi è alcun vantaggio reale nella loro ricerca per indicizzazione o indicizzazione. Ad esempio, le pagine di accesso o le pagine delle risorse non devono essere richieste nemmeno dai crawler del motore di ricerca. Gli URL come questi dovrebbero essere nascosti dai motori di ricerca aggiungendoli al file Robots.txt.

Gestione del file di Robots.txt

È possibile usare la funzionalità Di esclusione robot di IIS edizione Standard O Toolkit per creare un file di Robots.txt che indica ai motori di ricerca quali parti del sito Web non devono essere sottoposte a ricerca per indicizzazione o indicizzate. I passaggi seguenti descrivono come usare questo strumento.

  1. Aprire la Console di gestione IIS digitando INETMGR nel menu Start.
  2. Passare al sito Web usando la visualizzazione albero sul lato sinistro, ad esempio Sito Web predefinito.
  3. Fare clic sull'icona Ottimizzazione motore di ricerca nella sezione Gestione:
    Screenshot che mostra le icone della sezione Gestione.
  4. Nella pagina principale edizione Standard O fare clic sul collegamento "Aggiungi una nuova regola non consentita" all'interno della sezione Esclusione robot.
    Screenshot che mostra l'esclusione dei robot nella sezione Ottimizzazione motore di ricerca.

Aggiunta di regole non consentite e consenti

La finestra di dialogo "Aggiungi regole non consentite" verrà aperta automaticamente:

Screenshot che mostra la finestra di dialogo Aggiungi regole non consentite. L'elenco della struttura U R L viene espanso e dall'analisi del sito (myblog) è selezionata.

Il protocollo di esclusione robot usa direttive "Consenti" e "Non consentito" per informare i motori di ricerca sui percorsi URL che possono essere sottoposti a ricerca per indicizzazione e quelli che non possono. Queste direttive possono essere specificate per tutti i motori di ricerca o per agenti utente specifici identificati da un'intestazione HTTP dell'agente utente. Nella finestra di dialogo "Aggiungi regole non consentite" è possibile specificare il crawler del motore di ricerca a cui si applica la direttiva immettendo l'agente utente del crawler nel campo "Robot (Agente utente)".

La visualizzazione albero percorso URL viene usata per selezionare gli URL da non consentire. È possibile scegliere tra diverse opzioni quando si selezionano i percorsi URL usando l'elenco a discesa "Struttura URL":

  • Posizione fisica: è possibile scegliere i percorsi dal layout del file system fisico del sito Web.
  • Da Analisi sito (nome analisi): è possibile scegliere i percorsi dalla struttura dell'URL virtuale individuata durante l'analisi del sito con lo strumento analisi sito IIS.
  • <Eseguire la nuova analisi del sito...> - È possibile eseguire una nuova analisi del sito per ottenere la struttura dell'URL virtuale per il sito Web e quindi selezionare percorsi URL da questa posizione.

Dopo aver completato i passaggi descritti nella sezione prerequisiti, sarà disponibile un'analisi del sito. Scegliere l'analisi nell'elenco a discesa e quindi selezionare gli URL che devono essere nascosti dai motori di ricerca usando le caselle di controllo nella visualizzazione albero "Percorsi URL":

Screenshot della finestra di dialogo Aggiungi regole non consentite. I percorsi U R L selezionati vengono visualizzati in Percorsi U R L non consentiti.

Dopo aver selezionato tutte le directory e i file che devono essere non consentiti, fare clic su OK. Nella visualizzazione principale delle funzionalità verranno visualizzate le nuove voci non consentite:

Screenshot della finestra Esclusione robot. I percorsi non consentiti vengono visualizzati nel riquadro principale.

Inoltre, il file Robots.txt per il sito verrà aggiornato (o creato se non esiste). Il contenuto sarà simile al seguente:

User-agent: *
Disallow: /EditConfig.aspx
Disallow: /EditService.asmx/
Disallow: /images/
Disallow: /Login.aspx
Disallow: /scripts/
Disallow: /SyndicationService.asmx/

Per informazioni sul funzionamento delle Robots.txt, tornare alla funzionalità Analisi sito ed eseguire di nuovo l'analisi per il sito. Nella categoria Collegamenti della pagina Riepilogo report scegliere Collegamenti bloccati da Robots.txt. Questo report visualizzerà tutti i collegamenti che non sono stati sottoposti a ricerca per indicizzazione perché non sono stati consentiti dal file Robots.txt appena creato.

Screenshot della finestra Report analisi sito. Nel riquadro principale viene visualizzato un elenco di collegamenti bloccati.

Gestione dei file della Mappa del sito

È possibile usare la funzionalità Mappa della Mappa della mappa e degli indici della Mappa del toolkit IIS edizione Standard O per creare le mappa del sito Web per informare i motori di ricerca delle pagine che devono essere sottoposte a ricerca per indicizzazione e indicizzate. A tale scopo, effettuare i seguenti passaggi:

  1. Aprire Gestione IIS digitando INETMGR nel menu Start .
  2. Passare al sito Web usando la visualizzazione albero a sinistra.
  3. Fare clic sull'icona Ottimizzazione motore di ricerca nella sezione Gestione:
    Screenshot che mostra l'icona Ottimizzazione motore di ricerca.
  4. Nella pagina principale edizione Standard O fare clic sul collegamento "Crea una nuova mappa del sito" all'interno della sezione Sitemaps and Sitemap Indexes .On the edizione Standard O main page, click on the "Create a newmap" task link within the Sitemaps and Sitemap Indexes section.
    Screenshot che mostra le Mappe della mappa e gli indici della mappa nella sezione Ottimizzazione motore di ricerca.
  5. La finestra di dialogo Aggiungi mappa del sito verrà aperta automaticamente.
    Screenshot che mostra la finestra Sitemaps and Sitemap Indexes con la finestra Di dialogo Nuova Mappa del sito.
  6. Digitare un nome per il file della mappa del sito e fare clic su OK. Verrà visualizzata la finestra di dialogo Aggiungi URL .

Aggiunta di URL alla mappa del sito

La finestra di dialogo Aggiungi URL è simile alla seguente:

Screenshot della finestra di dialogo Add U R Ls che mostra la visualizzazione albero del percorso myblog U R L.

Ilfileo è fondamentalmente un semplice file XML che elenca gli URL insieme ad alcuni metadati, ad esempio frequenza di modifica, data dell'ultima modifica e priorità relativa. Usare la finestra di dialogo Aggiungi URL per aggiungere nuove voci URL al file XML Della Mappa del Sito. Ogni URL nella mappa del sito deve essere in un formato URI completo(ad esempio deve includere il prefisso del protocollo e il nome di dominio). Quindi, la prima cosa da specificare è il dominio che verrà usato per gli URL che si intende aggiungere alla mappa del sito.

La visualizzazione albero percorso URL viene usata per selezionare gli URL da aggiungere alla mappa del sito per l'indicizzazione. È possibile scegliere tra diverse opzioni usando l'elenco a discesa "Struttura URL":

  • Posizione fisica: è possibile scegliere gli URL dal layout del file system fisico del sito Web.
  • Da Analisi sito (nome analisi): è possibile scegliere GLI URL dalla struttura di URL virtuale individuata quando il sito è stato analizzato con lo strumento Analisi sito.
  • <Eseguire la nuova analisi del sito...> : è possibile eseguire una nuova analisi del sito per ottenere la struttura dell'URL virtuale per il sito Web e quindi selezionare i percorsi URL da cui si vuole aggiungere per l'indicizzazione.

Dopo aver completato i passaggi nella sezione prerequisiti, sarà disponibile un'analisi del sito. Sceglilo dall'elenco a discesa e quindi controlla gli URL che devono essere aggiunti alla mappa del sito.

Se necessario, modificare le opzioni Frequenza di modifica, Data ultima modifica e Priorità , quindi fare clic su OK per aggiungere gli URL alla mappa del sito. Un file sitemap.xml verrà aggiornato (o creato se non esiste) e il relativo contenuto sarà simile al seguente:

<urlset>
  <url>
    <loc>http://myblog/2009/03/11/CongratulationsYouveInstalledDasBlogWithWebDeploy.aspx</loc>
    <lastmod>2009-06-03T16:05:02</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.5</priority>
  </url>
  <url>
    <loc>http://myblog/2009/06/02/ASPNETAndURLRewriting.aspx</loc>
    <lastmod>2009-06-03T16:05:01</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.5</priority>
  </url>
</urlset>

Aggiunta della posizione della mappa del sito al file di Robots.txt

Ora che hai creato una mappa del sito, dovrai informare i motori di ricerca dove si trova in modo che possano iniziare a usarlo. Il modo più semplice per eseguire questa operazione consiste nell'aggiungere l'URL della posizione della mappa di mappa al file Robots.txt.

Nella funzionalità Degli indici della Mappa del Sito scegliere la mappa del sito appena creata e quindi fare clic su Aggiungi a Robots.txt nel riquadro Azioni :

Screenshot della finestra I S Manager e della finestra di dialogo Aggiungi Mappa del sito ai robot.

Il file Robots.txt sarà simile al seguente:

User-agent: *
Disallow: /EditService.asmx/
Disallow: /images/
Disallow: /scripts/
Disallow: /SyndicationService.asmx/
Disallow: /EditConfig.aspx
Disallow: /Login.aspx

Sitemap: http://myblog/sitemap.xml

Registrazione delle mappa del sito con motori di ricerca

Oltre ad aggiungere la posizione della mappa di mappa al file Robots.txt, è consigliabile inviare l'URL della posizione della mappa ai motori di ricerca principali. In questo modo sarà possibile ottenere informazioni utili sullo stato e le statistiche sul sito Web dagli strumenti del motore di ricerca.

  • Per inviare una mappa del sito a bing.com, usare gli strumenti Bing
  • Per inviare una mappa del sito a google.com, utilizzare google Tools

Riepilogo

In questa procedura dettagliata si è appreso come usare le funzionalità di esclusione dei robot e delle mappa e degli indici della mappa del toolkit di ottimizzazione del motore di ricerca IIS per gestire i file di Robots.txt e mappa del sito Web. IIS Search Engine Optimization Toolkit offre un set integrato di strumenti che interagiscono per facilitare la creazione e la convalida della correttezza dei file Robots.txt e della mappa della mappa prima che i motori di ricerca inizino a usarli.