Comment faire pour écrire un fichier Robots.txt


Nous recommandons fortement que tous les utilisateurs se mettent à niveau vers la version 7.0 de Microsoft Internet Information Services (IIS) en cours d'exécution sur Microsoft Windows Server 2008. IIS 7.0 augmente considérablement la sécurité d’infrastructure Web. Pour plus d’informations sur les questions liées à la sécurité IIS, visitez le site Web de Microsoft à l’adresse suivante :Pour plus d’informations sur IIS 7.0, visitez le site Web de Microsoft à l’adresse suivante :

Résumé


Moteurs de recherche Web, souvent appelés Robots, sont des moteurs de recherche Web « analyse » sur les pages Internet et des index sur des serveurs Web. Un moteur de recherche Web ensuite ces informations de catalogue et de rendre disponible sur Internet pour la recherche. Cela rend plus facile pour les utilisateurs à trouver des informations spécifiques sur Internet en permettant de « guichet unique » via le site WWW de l’araignée. La plupart des Robots également classer que les documents qui se trouvent sur Internet, ce qui permet des résultats de la recherche à un « score » ou disposées dans l’ordre des correspondances plus probables sur une recherche. Un fichier Robots.txt est un fichier texte spécial qui est toujours placé dans le répertoire racine de votre serveur Web. Ce fichier contient des restrictions pour les moteurs de recherche Web, leur indiquant où ils sont autorisés à effectuer une recherche. Il convient de noter que les Robots Web ne sont pas nécessaires pour respecter des fichiers Robots.txt, mais plus bien écrites moteurs de recherche Web suivent les règles que vous définissez.

Informations supplémentaires


Un Robot s’identifie lorsqu’il navigue sur votre site, ce qui est connu en tant que « User-agent » et s’affiche dans les journaux IIS. En règle générale, le flux d’événements lorsqu’un moteur de recherche Web analyse votre site est semblable à la suivante :
  1. Le Robot demande votre fichier/robots.txt et recherche un « User-agent : » ligne qui fait référence spécifiquement à elle.
    • Si il trouve une entrée pour lui-même, telles que « User-agent : WebRobot, » puis il suit les règles qui se rapportent à elle.
    • Si est ne trouve pas une entrée pour lui-même, il recherche un ensemble global de règles, telles que « User-agent : *, » et obéissent à ces règles.
    • Si le Robot est doté d’une entrée pour lui-même et un ensemble global de règles est également présent, les règles du Robot personnels remplacera les règles globales.
  2. Les règles d’un agent de l’utilisateur sont configurés en tant que « interdire : » instructions qui indiquent à un robot où il ne peut pas rechercher. Une instruction de ne pas autoriser est appliquée à n’importe quelle adresse peut avoir été demandé par l’automate. Par exemple :
    • « Interdire : test » entraîne un moteur de recherche Web à ignorer les /test/index.htm et ainsi de suite.
    • « Interdire : / » entraîne un moteur de recherche Web ignorer l’ensemble du site ; Il est parfois souhaitable.
    • « Interdire : "permet un moteur de recherche Web analyser l’ensemble du site.
  3. Les lignes qui commencent par le symbole dièse (#) désignent des commentaires, ce qui peuvent être utiles lors de la création de longs définit des règles. Exemples
    • Cet exemple désactive tous les moteurs de recherche Web pour l’ensemble du site :
      # Make changes for all web spidersUser-agent: *Disallow: / 
    • L’exemple suivant interdit un Robot nommé « WebSpider » dans les chemins d’accès virtuels « / marketing » et « / vente » :
      # Tell "WebSpider" where it can't goUser-agent: WebSpiderDisallow: /marketingDisallow: /sales# Allow all other robots to browse everywhereUser-agent: *Disallow:
    • Cet exemple autorise uniquement un moteur de recherche Web nommé « SpiderOne » dans un site, tout en refusant toutes les autres moteurs de recherche :
      # Allow "SpiderOne" in the siteUser-agent: SpiderOneDisallow:# Deny all other spidersUser-agent: *Disallow: / 
    • Ce dernier exemple interdit lié FrontPage des chemins d’accès à la racine de votre site Web :
      # Ignore FrontPage filesUser-agent: *Disallow: /_bordersDisallow: /_derivedDisallow: /_fpclassDisallow: /_overlayDisallow: /_privateDisallow: /_themesDisallow: /_vti_binDisallow: /_vti_cnfDisallow: /_vti_logDisallow: /_vti_mapDisallow: /_vti_pvtDisallow: /_vti_txt
Pour plus d’informations sur l’écriture de fichiers Robots.txt, consultez les sites Web suivants :