Πώς να συντάξετε ένα αρχείο Robots.txt


Συνιστούμε όλους τους χρήστες να αναβάθμισουν σε υπηρεσίες Microsoft Internet Information Services (IIS) έκδοση 7.0 λειτουργεί με Microsoft Windows Server 2008. Το IIS 7.0 αυξάνει σημαντικά την ασφάλεια της υποδομής Web. Για περισσότερες πληροφορίες σχετικά με θέματα που αφορούν την ασφάλεια των υπηρεσιών IIS, επισκεφθείτε την ακόλουθη τοποθεσία της Microsoft στο Web:Για περισσότερες πληροφορίες σχετικά με τις υπηρεσίες IIS 7.0, επισκεφθείτε την ακόλουθη τοποθεσία της Microsoft στο Web:

Σύνοψη


Και Web, συχνά ονομάζονται Robots, είναι οι μηχανισμοί αναζήτησης στο WWW που "ανίχνευση" σε όλες τις σελίδες του Internet και τα ευρετήρια σε διακομιστές Web. Μια αράχνη Web θα καταλόγου αυτές τις πληροφορίες και να διαθέσετε στο Internet για την αναζήτηση. Αυτό διευκολύνει τους χρήστες στην εύρεση συγκεκριμένων πληροφοριών στο Internet, επιτρέποντας "Αγορές μία διακοπής" έως την Αράχνη την τοποθεσία WWW. Οι περισσότεροι ανιχνευτών ιεράρχηση επίσης έγγραφα που βρίσκονται στο Internet, επιτρέποντας σε αποτελέσματα αναζήτησης να "σκορ" ή να διευθετηθούν σε σειρά πιο πιθανές επιλογές σε μια αναζήτηση. Ένα αρχείο Robots.txt είναι ένα αρχείο ειδικό κείμενο που βρίσκεται πάντα στο ριζικό κατάλογο του διακομιστή σας Web. Αυτό το αρχείο περιέχει τους περιορισμούς για και Web, κοινοποιώντας όπου έχουν δικαιώματα για να κάνετε αναζήτηση. Πρέπει να σημειωθεί ότι ανιχνευτών Web δεν είναι απαραίτητο να τηρούν αρχεία Robots.txt, αλλά πιο καλοσχεδιασμένες Web και ακολουθούν τους κανόνες που ορίζετε.

Περισσότερες πληροφορίες


Ένα ρομπότ αναγνωρίζει μόνο όταν το μεταβεί την τοποθεσία σας, η οποία είναι γνωστή ως το κλειδί "User-agent" και εμφανίζεται στα αρχεία καταγραφής των υπηρεσιών IIS. Γενικά, η ροή των συμβάντων κατά μια αράχνη Web ανιχνεύει την τοποθεσία σας είναι παρόμοιο με το ακόλουθο:
  1. Το ρομπότ ζητά το αρχείο /robots.txt και αναζητά ένα "User-agent:" γραμμή που αναφέρεται ρητά.
    • Εάν εντοπίσει μια καταχώρηση για τον εαυτό του, όπως "User-agent: WebRobot," τότε το ακολουθεί τους κανόνες που αφορούν σε αυτό.
    • Αν είναι δεν εντοπίσει μια καταχώρηση για τον εαυτό του, αναζητά ένα καθολικό σύνολο κανόνων, όπως "User-agent: *," και obeys αυτούς τους κανόνες.
    • Εάν το ρομπότ έχει μια καταχώρηση για τον εαυτό και υπάρχει επίσης ένα καθολικό σύνολο κανόνων, κανόνες προσωπικής το ρομπότ θα αντικαθιστά τις καθολικές κανόνες.
  2. Κανόνες για έναν παράγοντα χρήστη έχουν ρυθμιστεί ως "Disallow:" Οι προτάσεις που σας ενημερώνουν ένα ρομπότ όπου δεν είναι δυνατή η αναζήτηση. Μια δήλωση disallow εφαρμόζεται σε οποιαδήποτε διεύθυνση που ζητήθηκε από το ρομπότ. Για παράδειγμα:
    • "Να μην επιτρέπεται: / test" έχει ως αποτέλεσμα μια αράχνη Web για να παραβλέψετε /test/index.htm, και ούτω καθεξής.
    • "Να μην επιτρέπεται: /" έχει ως αποτέλεσμα μια αράχνη Web για να αγνοήσετε ολόκληρη την τοποθεσία; Μερικές φορές αυτό είναι επιθυμητό.
    • "Να μην επιτρέπεται:" επιτρέπει μια αράχνη Web για την ανίχνευση ολόκληρη την τοποθεσία.
  3. Γραμμές που αρχίζουν με το σύμβολο της δίεσης (#) υποδηλώνουν σχόλια, τα οποία μπορεί να είναι χρήσιμο κατά τη δημιουργία μεγάλα σύνολα κανόνων. Παραδείγματα
    • Αυτό το παράδειγμα δεν επιτρέπει σε όλους και Web για ολόκληρη την τοποθεσία:
      # Make changes for all web spidersUser-agent: *Disallow: / 
    • Το ακόλουθο παράδειγμα δεν επιτρέπει ρομπότ με το όνομα "WebSpider" από τις εικονικές διαδρομές "/ μάρκετινγκ" και "/ πωλήσεων":
      # Tell "WebSpider" where it can't goUser-agent: WebSpiderDisallow: /marketingDisallow: /sales# Allow all other robots to browse everywhereUser-agent: *Disallow:
    • Αυτό το παράδειγμα, επιτρέπει μόνο μια αράχνη Web με το όνομα "SpiderOne" σε μια τοποθεσία, ενώ η απόρριψη όλων των άλλων και:
      # Allow "SpiderOne" in the siteUser-agent: SpiderOneDisallow:# Deny all other spidersUser-agent: *Disallow: / 
    • Αυτό το τελευταίο παράδειγμα δεν επιτρέπει διαδρομές που σχετίζονται με το FrontPage στο ριζικό κατάλογο της τοποθεσίας σας στο Web:
      # Ignore FrontPage filesUser-agent: *Disallow: /_bordersDisallow: /_derivedDisallow: /_fpclassDisallow: /_overlayDisallow: /_privateDisallow: /_themesDisallow: /_vti_binDisallow: /_vti_cnfDisallow: /_vti_logDisallow: /_vti_mapDisallow: /_vti_pvtDisallow: /_vti_txt
Για περισσότερες πληροφορίες σχετικά με τη σύνταξη των αρχείων Robots.txt, ανατρέξτε στις ακόλουθες τοποθεσίες Web: