Jak napisać pliku Robots.txt


Firma Microsoft zaleca, aby wszyscy użytkownicy wykonali uaktualnienie do Microsoft Internet Information Services (IIS) w wersji 7.0 uruchomiona w systemie Microsoft Windows Server 2008. Usługi IIS 7.0 znacznie zwiększa bezpieczeństwo infrastruktury sieci Web. Aby uzyskać więcej informacji dotyczących tematów związanych z zabezpieczeniami usług IIS odwiedź następującą witrynę firmy Microsoft w sieci Web:Aby uzyskać więcej informacji o programie IIS 7.0, należy odwiedzić następującą witrynę firmy Microsoft w sieci Web:

Podsumowanie


Przeszukiwarki sieci Web, często nazywane roboty, są wyszukiwarki WWW, które "przemierzania" na stronach internetowych i indeksu na serwerach sieci Web. Pająk sieci Web będzie następnie wykazu tych informacji i udostępnić go w Internecie dla wyszukiwania. Ułatwia użytkownikom znajdowanie określonych informacji w Internecie poprzez umożliwienie "pojedynczej instytucji" za pośrednictwem witryny WWW Pająk. Większość roboty także ustalić priorytety dokumentów znajdujących się w Internecie, dzięki czemu wyniki wyszukiwania do "zaliczył" lub ułożone w kolejności najbardziej prawdopodobnych wyników w przypadku wyszukiwania. Plik Robots.txt jest plik specjalne dla tekstu, który zawsze znajduje się w katalogu głównym serwera sieci Web. Ten plik zawiera ograniczenia dla przeszukiwarki sieci Web, informacją, gdzie mają uprawnienie do wyszukiwania. Należy zauważyć, że roboty sieci Web nie muszą być przestrzegane plików Robots.txt, ale dobrze napisane przeszukiwarki sieci Web przestrzegają zasad, który definiujesz.

Więcej informacji


Robot identyfikuje się, gdy go przegląda witryny, który jest znany jako "User-agent" i pojawia się w dziennikach programu IIS. Ogólnie rzecz biorąc przepływ zdarzeń podczas Pająk sieci Web przeszukuje witryny jest podobny do następującego:
  1. Robot prosi o plik tak: / robots.txt i szuka "agenta użytkownika:" wiersz zawierający odwołanie do niej w szczególności.
    • Jeśli stwierdzi wpis dla siebie, takie jak "agenta użytkownika: WebRobot," a następnie wynika z reguły, które odnoszą się do niego.
    • Jeśli to nie znajdzie wpisu dla siebie, szuka globalny zestaw reguł, takie jak "agenta użytkownika: *," i przestrzega tych zasad.
    • Jeśli Robot ma wpis dla siebie i globalny zestaw reguł znajduje się również przełącznik, reguły osobistego robota zastąpi reguł globalnych.
  2. Reguły agenta użytkownika zostały ustawione jako "nie zezwalaj na:" instrukcji, które informują robota, gdzie nie można przeszukiwać. Instrukcja disallow jest stosowana do dowolnego adresu, który może zostały zażądane przez Robot. Na przykład:
    • "Nie zezwalaj na: / test" powoduje, że Pająk sieci Web zignorować /test/index.htm i tak dalej.
    • "Nie zezwalaj na: /" powoduje, że Pająk sieci Web zignorować całej witryny; Czasami jest to pożądane.
    • "Nie zezwalaj na:" pozwala Pająk do przeszukiwania całej witryny sieci Web.
  3. Linie zaczynające się symbol krzyżyka (#) oznaczają komentarze, które mogą być przydatne podczas tworzenia długich zestawów reguł. Przykłady
    • W tym przykładzie nie zezwala na wszystkie przeszukiwarki sieci Web dla całej witryny:
      # Make changes for all web spidersUser-agent: *Disallow: / 
    • Poniższy przykład uniemożliwia Robot o nazwie "WebSpider" z ścieżek wirtualnych "/ marketing" i "/ sprzedaży":
      # Tell "WebSpider" where it can't goUser-agent: WebSpiderDisallow: /marketingDisallow: /sales# Allow all other robots to browse everywhereUser-agent: *Disallow:
    • W tym przykładzie umożliwia tylko Pająk sieci Web o nazwie "SpiderOne" w witrynie, odrzuca wszystkie inne roboty:
      # Allow "SpiderOne" in the siteUser-agent: SpiderOneDisallow:# Deny all other spidersUser-agent: *Disallow: / 
    • W tym ostatnim przykładzie nie zezwala na ścieżki w katalogu głównym witryny sieci Web związane z programu FrontPage:
      # Ignore FrontPage filesUser-agent: *Disallow: /_bordersDisallow: /_derivedDisallow: /_fpclassDisallow: /_overlayDisallow: /_privateDisallow: /_themesDisallow: /_vti_binDisallow: /_vti_cnfDisallow: /_vti_logDisallow: /_vti_mapDisallow: /_vti_pvtDisallow: /_vti_txt
Aby uzyskać więcej informacji na temat pisania plików Robots.txt zobacz następujące witryny sieci Web: