Kuidas kirjutada faili Robots.txt

Soovitame tungivalt kõigil kasutajatel uuendada kuni Microsoft Internet Information Services (IIS) versioonile 7.0 mis töötab Microsoft Windows Server 2008. IIS 7.0 suurendab märgatavalt veebiinfrastruktuuri turvalisust. IIS-i turvalisusega seotud teemade kohta lisateabe saamiseks külastage järgmist Microsofti veebisaiti:

Lisateavet IIS 7.0 kohta leiate järgmiselt Microsofti veebisaidilt:

Kokkuvõte

Veebi ämblikud, sageli nimetatakse robotid, on WWW otsingumootorite "analüüsi" Internet ja indeksi lehekülgede vahel veebiserveritesse. Web Spider siis kataloogi teabe ja kättesaadavaks Interneti otsimiseks. See lihtsustab kasutajatel leida konkreetseid andmeid Internetis, mis võimaldab "universaalse" on WWW saidi kaudu. Enamik robotid ka teistele dokumentidele, mis on Internetis, võimaldades otsingutulemuste "viskas" või järjekorras kõige tõenäolisemalt vastete otsing. Robots.txt faili on teksti faili, mis asub alati teie veebiserver juurkataloogi. See fail sisaldab piiranguid veebi ämblikud, teatades neile, kui neil on õigus otsida. Tuleks märkida, et viimane hästi kirjutatud veebi ämblikud tehke määratlete reeglid veebirobotite on vaja järgida Robots.txt faili.

Lisateave

Robot tuvastab ise, kui seda saiti, mida nimetatakse "User-agent" ja kuvatakse IIS-i logisse sirvib. Üldiselt on järgmistega sarnaseid sündmusi, kui Web Spider indekseerib saidi:

  1. Robot /robots.txt faili küsib ja otsib on "User-agent:" rida, mis viitab konkreetselt.

    • Kui leitud kirjet ise, nagu näiteks "User-agent: WebRobot," siis järgneb reeglid, mis on seotud selle.

    • Kui on leidnud kirje ise, otsib kehtestada reeglid, näiteks "User-agent: *," ja põhineb need reeglid.

    • Kui Robot on kirje ise ja kehtestada reeglid on ka olemas, asendab Robot isiklikke reeglid globaalsete reeglite.

  2. Reeglite user-agent on seadistatud "selleKeela:" et öelda robot, kui seda ei saa otsida. Aadress, mis on taotlenud Robot rakendatakse selleKeela lause. Näiteks:

    • "Keelata: / test" põhjustab Web Spider ignoreerida /test/index.htm ja nii edasi.

    • "Keelata: /" põhjustab Web Spider ignoreerida kogu saidi; mõnikord on soovitatav.

    • "Keelata:" võimaldab Web Spider indekseerib kogu saidi.

  3. Read, mis algavad naela sümbol (#) tähistab kommentaarid, mis võib olla kasulik, kui loomine kaua määrab reeglid. Näited

    • Selles näites teie kõigi veebi ämblikud kogu saidi:

      # Make changes for all web spidersUser-agent: *Disallow: / 
    • Järgmises näites teie Robot nimega "WebSpider" virtuaalne teed: "/ marketing" ja "/ müügi":

      # Tell "WebSpider" where it can't goUser-agent: WebSpiderDisallow: /marketingDisallow: /sales# Allow all other robots to browse everywhereUser-agent: *Disallow:
    • Selles näites võimaldab ainult Web Spider nimega "SpiderOne" saiti, samal ajal keelab kõik muud ämblikud:

      # Allow "SpiderOne" in the siteUser-agent: SpiderOneDisallow:# Deny all other spidersUser-agent: *Disallow: / 
    • See viimane näide sellise veebisaidi juurkaustas FrontPage seotud teed:

      # Ignore FrontPage filesUser-agent: *Disallow: /_bordersDisallow: /_derivedDisallow: /_fpclassDisallow: /_overlayDisallow: /_privateDisallow: /_themesDisallow: /_vti_binDisallow: /_vti_cnfDisallow: /_vti_logDisallow: /_vti_mapDisallow: /_vti_pvtDisallow: /_vti_txt

Robots.txt failide kirjutamise kohta lisateabe saamiseks vaadake järgmist veebisaiti:

Kas vajate veel abi?

Täiendage oma oskusi
Tutvuge koolitusmaterjalidega
Kasutage uusi funktsioone enne teisi
Liitu Microsofti Insideri programmis osalejad

Kas sellest teabest oli abi?

Täname tagasiside eest!

Täname tagasiside eest! Tundub, et võiksime teid kokku viia ühega meie Office'i tugiagentidest, kes aitab teil probleemi lahendada.

×