Gestione di Robots.txt e file della Mappa del sito
IIS Search Engine Optimization Toolkit include una funzionalità di esclusione robot che è possibile usare per gestire il contenuto del file di Robots.txt per il sito Web e include la funzionalità Mappa di mappa e indici della Mappa del sito che è possibile usare per gestire le mappa del sito. Questa procedura dettagliata illustra come e perché usare queste funzionalità.
Background
I crawler del motore di ricerca impiegano tempo limitato e risorse nel sito Web. Di conseguenza, è fondamentale eseguire le operazioni seguenti:
- Impedire ai crawler di indicizzare il contenuto non importante o che non deve essere visualizzato nelle pagine dei risultati della ricerca.
- Puntare i crawler al contenuto che si ritiene più importante per l'indicizzazione.
Esistono due protocolli comunemente usati per eseguire queste attività: il protocollo di esclusione robot e il protocollo Della Mappa del sito.
Il protocollo di esclusione robot viene usato per indicare ai crawler del motore di ricerca quali URL non devono richiedere durante la ricerca per indicizzazione di un sito Web. Le istruzioni di esclusione vengono inserite in un file di testo denominato Robots.txt, che si trova nella radice del sito Web. La maggior parte dei crawler del motore di ricerca cerca in genere questo file e segui le istruzioni in esso contenute.
Il protocollo Sitemaps viene usato per informare i crawler del motore di ricerca sugli URL disponibili per la ricerca per indicizzazione nel sito Web. Inoltre, le Sitemap vengono usate per fornire alcuni metadati aggiuntivi sugli URL del sito, ad esempio l'ora dell'ultima modifica, la frequenza di modifica, la priorità relativa e così via. I motori di ricerca potrebbero usare questi metadati durante l'indicizzazione del sito Web.
Prerequisiti
1. Configurazione di un sito Web o di un'applicazione
Per completare questa procedura dettagliata, è necessario un sito Web ospitato iis 7 o versione successiva o un'applicazione Web che si controlla. Se non ne è disponibile uno, è possibile installarlo dalla raccolta di applicazioni Web Microsoft. Ai fini di questa procedura dettagliata, si userà l'applicazione di blogging popolare DasBlog.
2. Analisi del sito Web
Dopo aver creato un sito Web o un'applicazione Web, è consigliabile analizzarlo per comprendere come un tipico motore di ricerca ne eseguirà la ricerca per indicizzazione. A tale scopo, seguire i passaggi descritti negli articoli "Utilizzo dell'analisi del sito per eseguire la ricerca per indicizzazione di un sito Web" e "Utilizzo di report di analisi sito". Quando si esegue l'analisi, probabilmente si noterà che si dispone di determinati URL disponibili per la ricerca per indicizzazione dei motori di ricerca, ma che non vi è alcun vantaggio reale nella loro ricerca per indicizzazione o indicizzazione. Ad esempio, le pagine di accesso o le pagine delle risorse non devono essere richieste nemmeno dai crawler del motore di ricerca. Gli URL come questi dovrebbero essere nascosti dai motori di ricerca aggiungendoli al file Robots.txt.
Gestione del file di Robots.txt
È possibile usare la funzionalità Di esclusione robot di IIS edizione Standard O Toolkit per creare un file di Robots.txt che indica ai motori di ricerca quali parti del sito Web non devono essere sottoposte a ricerca per indicizzazione o indicizzate. I passaggi seguenti descrivono come usare questo strumento.
- Aprire la Console di gestione IIS digitando INETMGR nel menu Start.
- Passare al sito Web usando la visualizzazione albero sul lato sinistro, ad esempio Sito Web predefinito.
- Fare clic sull'icona Ottimizzazione motore di ricerca nella sezione Gestione:
- Nella pagina principale edizione Standard O fare clic sul collegamento "Aggiungi una nuova regola non consentita" all'interno della sezione Esclusione robot.
Aggiunta di regole non consentite e consenti
La finestra di dialogo "Aggiungi regole non consentite" verrà aperta automaticamente:
Il protocollo di esclusione robot usa direttive "Consenti" e "Non consentito" per informare i motori di ricerca sui percorsi URL che possono essere sottoposti a ricerca per indicizzazione e quelli che non possono. Queste direttive possono essere specificate per tutti i motori di ricerca o per agenti utente specifici identificati da un'intestazione HTTP dell'agente utente. Nella finestra di dialogo "Aggiungi regole non consentite" è possibile specificare il crawler del motore di ricerca a cui si applica la direttiva immettendo l'agente utente del crawler nel campo "Robot (Agente utente)".
La visualizzazione albero percorso URL viene usata per selezionare gli URL da non consentire. È possibile scegliere tra diverse opzioni quando si selezionano i percorsi URL usando l'elenco a discesa "Struttura URL":
- Posizione fisica: è possibile scegliere i percorsi dal layout del file system fisico del sito Web.
- Da Analisi sito (nome analisi): è possibile scegliere i percorsi dalla struttura dell'URL virtuale individuata durante l'analisi del sito con lo strumento analisi sito IIS.
- <Eseguire la nuova analisi del sito...> - È possibile eseguire una nuova analisi del sito per ottenere la struttura dell'URL virtuale per il sito Web e quindi selezionare percorsi URL da questa posizione.
Dopo aver completato i passaggi descritti nella sezione prerequisiti, sarà disponibile un'analisi del sito. Scegliere l'analisi nell'elenco a discesa e quindi selezionare gli URL che devono essere nascosti dai motori di ricerca usando le caselle di controllo nella visualizzazione albero "Percorsi URL":
Dopo aver selezionato tutte le directory e i file che devono essere non consentiti, fare clic su OK. Nella visualizzazione principale delle funzionalità verranno visualizzate le nuove voci non consentite:
Inoltre, il file Robots.txt per il sito verrà aggiornato (o creato se non esiste). Il contenuto sarà simile al seguente:
User-agent: *
Disallow: /EditConfig.aspx
Disallow: /EditService.asmx/
Disallow: /images/
Disallow: /Login.aspx
Disallow: /scripts/
Disallow: /SyndicationService.asmx/
Per informazioni sul funzionamento delle Robots.txt, tornare alla funzionalità Analisi sito ed eseguire di nuovo l'analisi per il sito. Nella categoria Collegamenti della pagina Riepilogo report scegliere Collegamenti bloccati da Robots.txt. Questo report visualizzerà tutti i collegamenti che non sono stati sottoposti a ricerca per indicizzazione perché non sono stati consentiti dal file Robots.txt appena creato.
Gestione dei file della Mappa del sito
È possibile usare la funzionalità Mappa della Mappa della mappa e degli indici della Mappa del toolkit IIS edizione Standard O per creare le mappa del sito Web per informare i motori di ricerca delle pagine che devono essere sottoposte a ricerca per indicizzazione e indicizzate. A tale scopo, effettuare i seguenti passaggi:
- Aprire Gestione IIS digitando INETMGR nel menu Start .
- Passare al sito Web usando la visualizzazione albero a sinistra.
- Fare clic sull'icona Ottimizzazione motore di ricerca nella sezione Gestione:
- Nella pagina principale edizione Standard O fare clic sul collegamento "Crea una nuova mappa del sito" all'interno della sezione Sitemaps and Sitemap Indexes .On the edizione Standard O main page, click on the "Create a newmap" task link within the Sitemaps and Sitemap Indexes section.
- La finestra di dialogo Aggiungi mappa del sito verrà aperta automaticamente.
- Digitare un nome per il file della mappa del sito e fare clic su OK. Verrà visualizzata la finestra di dialogo Aggiungi URL .
Aggiunta di URL alla mappa del sito
La finestra di dialogo Aggiungi URL è simile alla seguente:
Ilfileo è fondamentalmente un semplice file XML che elenca gli URL insieme ad alcuni metadati, ad esempio frequenza di modifica, data dell'ultima modifica e priorità relativa. Usare la finestra di dialogo Aggiungi URL per aggiungere nuove voci URL al file XML Della Mappa del Sito. Ogni URL nella mappa del sito deve essere in un formato URI completo(ad esempio deve includere il prefisso del protocollo e il nome di dominio). Quindi, la prima cosa da specificare è il dominio che verrà usato per gli URL che si intende aggiungere alla mappa del sito.
La visualizzazione albero percorso URL viene usata per selezionare gli URL da aggiungere alla mappa del sito per l'indicizzazione. È possibile scegliere tra diverse opzioni usando l'elenco a discesa "Struttura URL":
- Posizione fisica: è possibile scegliere gli URL dal layout del file system fisico del sito Web.
- Da Analisi sito (nome analisi): è possibile scegliere GLI URL dalla struttura di URL virtuale individuata quando il sito è stato analizzato con lo strumento Analisi sito.
- <Eseguire la nuova analisi del sito...> : è possibile eseguire una nuova analisi del sito per ottenere la struttura dell'URL virtuale per il sito Web e quindi selezionare i percorsi URL da cui si vuole aggiungere per l'indicizzazione.
Dopo aver completato i passaggi nella sezione prerequisiti, sarà disponibile un'analisi del sito. Sceglilo dall'elenco a discesa e quindi controlla gli URL che devono essere aggiunti alla mappa del sito.
Se necessario, modificare le opzioni Frequenza di modifica, Data ultima modifica e Priorità , quindi fare clic su OK per aggiungere gli URL alla mappa del sito. Un file sitemap.xml verrà aggiornato (o creato se non esiste) e il relativo contenuto sarà simile al seguente:
<urlset>
<url>
<loc>http://myblog/2009/03/11/CongratulationsYouveInstalledDasBlogWithWebDeploy.aspx</loc>
<lastmod>2009-06-03T16:05:02</lastmod>
<changefreq>weekly</changefreq>
<priority>0.5</priority>
</url>
<url>
<loc>http://myblog/2009/06/02/ASPNETAndURLRewriting.aspx</loc>
<lastmod>2009-06-03T16:05:01</lastmod>
<changefreq>weekly</changefreq>
<priority>0.5</priority>
</url>
</urlset>
Aggiunta della posizione della mappa del sito al file di Robots.txt
Ora che hai creato una mappa del sito, dovrai informare i motori di ricerca dove si trova in modo che possano iniziare a usarlo. Il modo più semplice per eseguire questa operazione consiste nell'aggiungere l'URL della posizione della mappa di mappa al file Robots.txt.
Nella funzionalità Degli indici della Mappa del Sito scegliere la mappa del sito appena creata e quindi fare clic su Aggiungi a Robots.txt nel riquadro Azioni :
Il file Robots.txt sarà simile al seguente:
User-agent: *
Disallow: /EditService.asmx/
Disallow: /images/
Disallow: /scripts/
Disallow: /SyndicationService.asmx/
Disallow: /EditConfig.aspx
Disallow: /Login.aspx
Sitemap: http://myblog/sitemap.xml
Registrazione delle mappa del sito con motori di ricerca
Oltre ad aggiungere la posizione della mappa di mappa al file Robots.txt, è consigliabile inviare l'URL della posizione della mappa ai motori di ricerca principali. In questo modo sarà possibile ottenere informazioni utili sullo stato e le statistiche sul sito Web dagli strumenti del motore di ricerca.
- Per inviare una mappa del sito a bing.com, usare gli strumenti Bing
- Per inviare una mappa del sito a google.com, utilizzare google Tools
Riepilogo
In questa procedura dettagliata si è appreso come usare le funzionalità di esclusione dei robot e delle mappa e degli indici della mappa del toolkit di ottimizzazione del motore di ricerca IIS per gestire i file di Robots.txt e mappa del sito Web. IIS Search Engine Optimization Toolkit offre un set integrato di strumenti che interagiscono per facilitare la creazione e la convalida della correttezza dei file Robots.txt e della mappa della mappa prima che i motori di ricerca inizino a usarli.
Commenti e suggerimenti
https://aka.ms/ContentUserFeedback.
Presto disponibile: Nel corso del 2024 verranno gradualmente disattivati i problemi di GitHub come meccanismo di feedback per il contenuto e ciò verrà sostituito con un nuovo sistema di feedback. Per altre informazioni, vedereInvia e visualizza il feedback per