Gestion des fichiers Robots.txt et Sitemap

par Ruslan Yakushev

Le Kit de ressources d’optimisation du moteur de recherche IIS inclut une fonctionnalité Robots Exclusion que vous pouvez utiliser pour gérer le contenu du fichier Robots.txt de votre site Web, et inclut les Sitemaps et index sitemaps que vous pouvez utiliser pour gérer les plans d’exploitation de votre site. Cette procédure pas à pas explique comment et pourquoi utiliser ces fonctionnalités.

Background

Les analyseurs du moteur de recherche passent du temps et des ressources limités sur votre site Web. Par conséquent, il est essentiel d’effectuer les opérations suivantes :

  1. Empêchez les analyseurs d’indexer du contenu qui n’est pas important ou qui ne doit pas être exposé dans les pages de résultats de recherche.
  2. Pointez les analyseurs vers le contenu que vous jugez le plus important pour l’indexation.

Il existe deux protocoles couramment utilisés pour effectuer ces tâches : le protocole d’exclusion des robots et le Protocole Sitemaps.

Le protocole Robots Exclusion est utilisé pour indiquer aux analyseurs du moteur de recherche les URL qu’il ne doit PAS demander lors de l’analyse d’un site web. Les instructions d’exclusion sont placées dans un fichier texte nommé Robots.txt, qui se trouve à la racine du site Web. La plupart des analyseurs du moteur de recherche recherchent généralement ce fichier et suivent les instructions qu’il contient.

Le protocole Sitemaps est utilisé pour informer les analyseurs du moteur de recherche sur les URL disponibles pour l’analyse sur votre site web. En outre, les Sitemaps sont utilisés pour fournir des métadonnées supplémentaires sur les URL du site, telles que l’heure de dernière modification, la fréquence de modification, la priorité relative, etc. Les moteurs de recherche peuvent utiliser ces métadonnées lors de l’indexation de votre site web.

Prérequis

1. Configuration d’un site web ou d’une application

Pour effectuer cette procédure pas à pas, vous aurez besoin d’un site web hébergé IIS 7 ou version ultérieure ou d’une application web que vous contrôlez. Si vous n’en avez pas, vous pouvez l’installer à partir de la Galerie d’applications web Microsoft. Pour les besoins de cette procédure pas à pas, nous allons utiliser l’application de blogs populaire DasBlog.

2. Analyse du site web

Une fois que vous disposez d’un site web ou d’une application web, vous pouvez l’analyser pour comprendre comment un moteur de recherche classique analyse son contenu. Pour ce faire, suivez les étapes décrites dans les articles «Utilisation de l'analyse de site pour explorer un site web» et «Utilisation des rapports d'analyse de site». Lorsque vous effectuez votre analyse, vous remarquerez probablement que vous disposez de certaines URL disponibles pour les moteurs de recherche à analyser, mais qu’il n’y a aucun avantage réel à les analyser ou à les indexer. Par exemple, les pages de connexion ou les pages de ressources ne doivent pas être même demandées par les analyseurs du moteur de recherche. Les URL comme celles-ci doivent être masquées dans les moteurs de recherche en les ajoutant au fichier Robots.txt.

Gestion du fichier Robots.txt

Vous pouvez utiliser la fonctionnalité Robots Exclusion du kit de ressources SEO IIS pour créer un fichier Robots.txt qui indique aux moteurs de recherche quelles parties du site Web ne doivent pas être analysées ou indexées. Les étapes suivantes décrivent comment utiliser cet outil.

  1. Ouvrez la console de gestion IIS en tapant INETMGR dans le menu Démarrer.
  2. Accédez à votre site web à l’aide de l’arborescence située sur le côté gauche (par exemple, site web par défaut).
  3. Cliquez sur l’icône d’optimisation du moteur de recherche dans la section Gestion :
    Capture d’écran montrant les icônes de la section Gestion.
  4. Dans la page principale de SEO, cliquez sur le lien «Ajouter une nouvelle règle de non-autorisation» dans la section Robots Exclusion.
    Capture d’écran montrant l’exclusion des robots sous la section Optimisation du moteur de recherche.

Ajout de règles d’interdiction et d’autorisation

La boîte de dialogue « Ajouter des règles non autorisés » s’ouvre automatiquement :

Capture d’écran montrant la boîte de dialogue Ajouter des règles non autorisés. La liste des structures U R L est développée et From Site Analysis (myblog) est sélectionnée.

Le protocole d’exclusion des robots utilise des directives « Autoriser » et « Interdire » pour informer les moteurs de recherche sur les chemins d’URL qui peuvent être analysés et ceux qui ne peuvent pas être analysés. Ces directives peuvent être spécifiées pour tous les moteurs de recherche ou pour des agents utilisateur spécifiques identifiés par un en-tête HTTP de l’agent utilisateur. Dans la boîte de dialogue « Ajouter des règles non autorisés », vous pouvez spécifier l’analyseur du moteur de recherche auquel la directive s’applique en entrant l’agent utilisateur de l’analyseur dans le champ « Robot (Agent utilisateur) ».

L’arborescence chemin d’URL est utilisée pour sélectionner les URL qui doivent être interdites. Vous pouvez choisir parmi plusieurs options lors de la sélection des chemins d’URL à l’aide de la liste déroulante « Structure d’URL » :

  • Emplacement physique : vous pouvez choisir les chemins d’accès dans la disposition du système de fichiers physique de votre site Web.
  • À partir de l’analyse de site (nom d’analyse) : vous pouvez choisir des chemins d’accès dans la structure d’URL virtuelle qui a été découverte lorsque le site a été analysé avec l’outil d’analyse de site IIS.
  • <Exécuter une nouvelle analyse de site...> : vous pouvez exécuter une nouvelle analyse de site pour obtenir la structure d’URL virtuelle de votre site Web, puis sélectionner des chemins d’URL à partir de là.

Une fois les étapes décrites dans la section conditions préalables, vous disposez d’une analyse de site disponible. Choisissez l’analyse dans la liste déroulante, puis cochez les URL qui doivent être masquées dans les moteurs de recherche en utilisant les cases à cocher dans l’arborescence « Chemins d’URL » :

Capture d’écran de la boîte de dialogue Ajouter des règles non autorisés. Les chemins U R L sélectionnés s’affichent sous Chemins D’accès U R L non autorisés.

Après avoir sélectionné tous les répertoires et fichiers qui doivent être interdits, cliquez sur OK. Vous verrez les nouvelles entrées non autorisés dans la vue principale des fonctionnalités :

Capture d’écran de la fenêtre Exclusion des robots. Les chemins non autorisés sont affichés dans le volet principal.

En outre, le fichier Robots.txt du site est mis à jour (ou créé s’il n’existe pas). Son contenu ressemblera à ceci :

User-agent: *
Disallow: /EditConfig.aspx
Disallow: /EditService.asmx/
Disallow: /images/
Disallow: /Login.aspx
Disallow: /scripts/
Disallow: /SyndicationService.asmx/

Pour voir comment fonctionne Robots.txt, revenez à la fonctionnalité Analyse du site et réexécutez l’analyse pour le site. Dans la page Résumé des rapports, dans la catégorie Liens, choisissez Liens bloqués par Robots.txt. Ce rapport affiche tous les liens qui n’ont pas été analysés, car ils ont été interdits par le fichier Robots.txt que vous venez de créer.

Capture d’écran de la fenêtre Rapport d’analyse du site. Une liste de liens bloqués s’affiche dans le volet principal.

Gestion des fichiers du Sitemap

Vous pouvez utiliser les fonctions Sitemaps et Index Sitemap de la kit de ressources SEO d'IIS pour créer des sitemaps sur votre site Web afin d'informer les moteurs de recherche des pages qui doivent être explorées et indexées. Pour ce faire, procédez comme suit :

  1. Ouvrez le Gestionnaire IIS en tapant INETMGR dans le menu Démarrer.
  2. Accédez à votre site web à l’aide de l’arborescence à gauche.
  3. Cliquez sur l’icône d’optimisation du moteur de recherche dans la section Gestion :
    Capture d’écran montrant l’icône Optimisation du moteur de recherche.
  4. Sur la page principale SEO, cliquez sur le lien « Créer un nouveau sitemap » dans la section Sitemap et index du sitemap.
    Capture d’écran montrant les index de Plan de plan et de plan de plan sous la section Optimisation du moteur de recherche.
  5. La boîte de dialogue Ajouter un sitemap s’ouvre automatiquement.
    Capture d’écran montrant la fenêtre Des index de Plan de plan et de Plan avec la boîte de dialogue New Plan.
  6. Tapez un nom pour votre fichier de sitemap, puis cliquez sur OK. La boîte de dialogue Ajouter des URL s’affiche.

Ajout d’URL au plan

La boîte de dialogue Ajouter des URL ressemble à ceci :

Capture d’écran de la boîte de dialogue Add U R Ls montrant l’arborescence du chemin d’accès U R L myblog.

Le Sitemap est essentiellement un fichier XML simple qui répertorie les URL ainsi que certaines métadonnées, telles que la fréquence de modification, la date de dernière modification et la priorité relative. Vous utilisez la boîte de dialogue Ajouter des URL pour ajouter de nouvelles entrées d’URL au fichier xml Sitemap. Chaque URL du Sitemap doit être au format d’URI complet (c’est-à-dire qu’elle doit inclure le préfixe de protocole et le nom de domaine). Par conséquent, la première chose que vous devez spécifier est le domaine qui sera utilisé pour les URL que vous allez ajouter au Sitemap.

L'arborescence du chemin d'accès à l'URL permet de sélectionner les URL à ajouter au sitemap pour l'indexation. Vous pouvez choisir parmi plusieurs options à l’aide de la liste déroulante « Structure d’URL » :

  • Emplacement physique : vous pouvez choisir les URL dans la disposition du système de fichiers physique de votre site Web.
  • À partir de l’analyse de site (nom d’analyse) : vous pouvez choisir des URL dans la structure d’URL virtuelle découverte lorsque le site a été analysé avec l’outil Analyse de site.
  • <Exécuter une nouvelle analyse de site...> : vous pouvez exécuter une nouvelle analyse de site pour obtenir la structure d’URL virtuelle de votre site web, puis sélectionner les chemins d’URL à partir de là où vous souhaitez ajouter pour l’indexation.

Une fois que vous avez effectué les étapes décrites dans la section conditions préalables, vous disposez d’une analyse de site disponible. Choisissez-le dans la liste déroulante, puis vérifiez les URL qui doivent être ajoutées au site web.

Si nécessaire, modifiez les options Fréquence de modification, Date de dernière modification et Priorité, puis cliquez sur OK pour ajouter les URL au sitemap. Un fichier sitemap.xml est mis à jour (ou créé s’il n’existe pas), et son contenu se présente comme suit :

<urlset>
  <url>
    <loc>http://myblog/2009/03/11/CongratulationsYouveInstalledDasBlogWithWebDeploy.aspx</loc>
    <lastmod>2009-06-03T16:05:02</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.5</priority>
  </url>
  <url>
    <loc>http://myblog/2009/06/02/ASPNETAndURLRewriting.aspx</loc>
    <lastmod>2009-06-03T16:05:01</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.5</priority>
  </url>
</urlset>

Ajout de l’emplacement du sitemap au fichier Robots.txt

Maintenant que vous avez créé un plan, vous devrez informer les moteurs de recherche de leur emplacement afin qu’ils puissent commencer à l’utiliser. La façon la plus simple de procéder consiste à ajouter l’URL d’emplacement du sitemap au fichier Robots.txt.

Dans la fonctionnalité des index Sitemaps et de Sitemaps, choisissez le sitemap que vous venez de créer, puis cliquez sur Ajouter à Robots.txt dans le volet Actions :

Capture d’écran de la fenêtre I S Manager et de la boîte de dialogue Ajouter Un Plan à robots.

Votre fichier Robots.txt ressemble à ce qui suit :

User-agent: *
Disallow: /EditService.asmx/
Disallow: /images/
Disallow: /scripts/
Disallow: /SyndicationService.asmx/
Disallow: /EditConfig.aspx
Disallow: /Login.aspx

Sitemap: http://myblog/sitemap.xml

Enregistrement des sitemaps auprès des moteurs de recherche

Outre l'ajout de l'emplacement du sitemap au fichier Robots.txt, il est recommandé de soumettre l'URL de l'emplacement du sitemap aux principaux moteurs de recherche. Cela vous permettra d'obtenir des informations et des statistiques utiles sur votre site web à partir des outils pour webmasters des moteurs de recherche.

Résumé

Dans cette procédure pas à pas, vous avez appris à utiliser les fonctions exclusion des robots et Sitemaps et Index Sitemap de la boîte à outils d'optimisation des moteurs de recherche IIS pour gérer les fichiers Robots.txt et le sitemap de votre site Web. Le Kit d'optimisation pour les moteurs de recherche IIS fournit un ensemble intégré d'outils qui fonctionnent ensemble pour vous aider à créer et à valider l'exactitude des fichiers Robots.txt et le sitemap avant que les moteurs de recherche ne commencent à les utiliser.