Verwalten von Robots.txt- und Sitemap-Dateien

by Ruslan Yakushev

Das IIS Suchmaschinenoptimierungs-Toolkit enthält ein Robots Exclusion-Feature, mit dem Sie den Inhalt der Robots.txt-Datei für Ihre Website verwalten können, und enthält das Feature Sitemaps und Sitemap-Indexe, mit dem Sie die Sitemaps Ihrer Site verwalten können. In dieser exemplarischen Vorgehensweise wird erläutert, wie und warum diese Features verwendet werden.

Hintergrund

Suchmaschinencrawler verbringen begrenzte Zeit und Ressourcen auf Ihrer Website. Daher ist es wichtig, Folgendes zu tun:

  1. Verhindern Sie, dass die Crawler Inhalte indizieren, die nicht wichtig sind oder nicht auf Suchergebnisseiten angezeigt werden sollen.
  2. Verweisen Sie die Crawler auf den Inhalt, den Sie für die Indizierung am wichtigsten erachten.

Es gibt zwei Protokolle, die häufig verwendet werden, um diese Aufgaben zu erreichen: das Robots Exclusion-Protokoll und das Sitemaps-Protokoll.

Das Robots Exclusion-Protokoll wird verwendet, um Suchmaschinencrawler zu informieren, welche URLs sie beim Durchforsten einer Website NICHT anfordern sollten. Die Ausschlussanweisungen werden in eine Textdatei namens Robots.txt eingefügt, die sich im Stammverzeichnis der Website befindet. Die meisten Suchmaschinencrawler suchen in der Regel nach dieser Datei und folgen den Anweisungen darin.

Das Sitemaps-Protokoll wird verwendet, um Suchmaschinencrawler über URLs zu informieren, die für die Durchforstung auf Ihrer Website verfügbar sind. Darüber hinaus werden Sitemaps verwendet, um einige zusätzliche Metadaten zu den URLs der Website bereitzustellen, z. B. die Zeit der letzten Änderung, die Änderungshäufigkeit, relative Priorität usw. Suchmaschinen verwenden diese Metadaten möglicherweise beim Indizieren Ihrer Website.

Voraussetzungen

1. Einrichten einer Website oder einer Anwendung

Um dieses Beispiel auszuführen, benötigen Sie eine von IIS 7 oder höher gehostete Website oder eine von Ihnen kontrollierte Webanwendung. Wenn Sie keine haben, können Sie eine aus dem Microsoft-Webanwendungskatalog installieren. Für diese exemplarische Vorgehensweise verwenden wir die beliebte Blogginganwendung DasBlog.

2. Analysieren der Website

Sobald Sie über eine Website oder eine Webanwendung verfügen, sollten Sie sie analysieren, um zu verstehen, wie eine typische Suchmaschine den Inhalt durchforstet. Führen Sie dazu die in den Artikeln „Verwenden der Websiteanalyse zum Durchforsten einer Website“ und „Verwenden von Siteanalyseberichten“ beschriebenen Schritte aus. Wenn Sie Ihre Analyse durchführen, werden Sie wahrscheinlich feststellen, dass Sie bestimmte URLs haben, die für die zu durchforstenden Suchmaschinen verfügbar sind, aber dass es keinen wirklichen Vorteil dadurch gibt, dass diese durchforstet oder indiziert werden. Beispielsweise sollten Anmeldeseiten oder Ressourcenseiten nicht einmal von Suchmaschinencrawlern angefordert werden. URLs wie diese sollten von Suchmaschinen ausgeblendet werden, indem sie zur Robots.txt-Datei hinzugefügt werden.

Verwalten der Robots.txt-Datei

Sie können das Robots Exclusion-Feature des IIS SEO Toolkit verwenden, um eine Robots.txt-Datei zu erstellen, die Suchmaschinen informiert, welche Teile der Website nicht durchforstet oder indiziert werden sollen. Die folgenden Schritte beschreiben, wie dieses Tool genutzt wird.

  1. Öffnen Sie die IIS-Verwaltungskonsole, indem Sie INETMGR im Startmenü eingeben.
  2. Navigieren Sie mithilfe der Strukturansicht auf der linken Seite (z. B. Standardwebsite) zu Ihrer Website.
  3. Klicken Sie im Abschnitt Verwaltung auf das Symbol Suchmaschinenoptimierung:
    Screenshot mit den Symbolen des Verwaltungsabschnitts.
  4. Klicken Sie auf der SEO-Hauptseite auf die Vorgangsverknüpfung Neue unzulässige Regel hinzufügen innerhalb des Abschnitts Robots Exclusion.
    Screenshot mit Roboterausschluss unter dem Abschnitt

Hinzufügen von Nicht zulassen und Zulassen von Regeln

Das Dialogfeld „Unzulässige Regeln hinzufügen“ wird automatisch geöffnet:

Screenshot des Dialogfelds

Das Robots Exclusion-Protokoll verwendet „Zulassen“- und „Nicht zulassen“-Direktiven, um Suchmaschinen über URL-Pfade zu informieren, die durchforstet werden können, und diejenigen, die nicht möglich sind. Diese Direktiven können für alle Suchmaschinen oder für bestimmte Benutzer-Agents angegeben werden, die von einem Benutzer-Agent-HTTP-Header identifiziert werden. Im Dialogfeld „Unzulässige Regeln hinzufügen“ können Sie angeben, auf welche Suchmaschinencrawler die Direktive angewendet wird, indem Sie den Benutzer-Agent des Crawlers in das Feld „Roboter (Benutzer-Agent)“ eingeben.

Die URL-Pfadstrukturansicht wird verwendet, um auszuwählen, welche URLs nicht zulässig sein sollen. Sie können aus mehreren Optionen wählen, wenn Sie die URL-Pfade auswählen, indem Sie die Dropdownliste „URL-Struktur“ verwenden:

  • Physischer Speicherort – Sie können die Pfade aus dem physischen Dateisystemlayout Ihrer Website auswählen.
  • Von Siteanalyse (Analysename) aus - Sie können Pfade aus der virtuellen URL-Struktur auswählen, die beim Analysieren der Website mit dem IIS-Siteanalysetool ermittelt wurde.
  • <Neue Siteanalyse ausführen...> - Sie können eine neue Siteanalyse ausführen, um die virtuelle URL-Struktur für Ihre Website abzurufen, und dann URL-Pfade von dort auswählen.

Nachdem Sie die im Abschnitt Voraussetzungen beschriebenen Schritte abgeschlossen haben, steht Ihnen eine Siteanalyse zur Verfügung. Wählen Sie die Analyse in der Dropdownliste aus, und überprüfen Sie dann die URLs, die von Suchmaschinen ausgeblendet werden müssen, indem Sie die Kontrollkästchen in der Strukturansicht „URL-Pfade“ verwenden:

Screenshot des Dialogfelds

Nachdem Sie alle Verzeichnisse und Dateien ausgewählt haben, die nicht zugelassen werden sollen, klicken Sie auf OK. Die neuen unzulässigen Einträge werden in der Hauptfeatureansicht angezeigt:

Screenshot des Fensters

Außerdem wird die Robots.txt-Datei für die Website aktualisiert (oder erstellt, wenn sie nicht vorhanden ist). Der Inhalt der Seite sieht dann etwa so aus:

User-agent: *
Disallow: /EditConfig.aspx
Disallow: /EditService.asmx/
Disallow: /images/
Disallow: /Login.aspx
Disallow: /scripts/
Disallow: /SyndicationService.asmx/

Um zu sehen, wie Robots.txt funktioniert, wechseln Sie zurück zum Feature Siteanalyse, und führen Sie die Analyse für die Site erneut aus. Wählen Sie auf der Seite Berichtszusammenfassung in der Kategorie Links die Option Links blockiert von Robots.txt aus. In diesem Bericht werden alle Links angezeigt, die nicht durchforstet wurden, da sie von der soeben erstellten Robots.txt-Datei nicht zugelassen wurden.

Screenshot des Fensters

Verwalten von Sitemap-Dateien

Sie können das Feature Sitemaps und Sitemap-Indexe des IIS SEO Toolkit verwenden, um Sitemaps auf Ihrer Website zu erstellen, um Suchmaschinen über die Seiten zu informieren, die durchforstet und indiziert werden sollen. Gehen Sie dazu wie folgt vor:

  1. Öffnen Sie den IIS-Manager, indem Sie INETMGR im Startmenü eingeben.
  2. Navigieren Sie mithilfe der Strukturansicht auf der linken Seite zu Ihrer Website.
  3. Klicken Sie im Abschnitt Verwaltung auf das Symbol Suchmaschinenoptimierung:
    Screenshot des Symbols
  4. Klicken Sie auf der SEO-Hauptseite auf den Aufgabenlink Erstellen einer neuen Sitemap innerhalb des Abschnitts Sitemaps und Sitemap-Indexe.
    Screenshot mit Sitemaps und Sitemap-Indizes im Abschnitt
  5. Das Dialogfeld Sitemap hinzufügen wird automatisch geöffnet.
    Screenshot des Fensters
  6. Geben Sie einen Namen für Ihre Sitemap-Datei ein, und klicken Sie auf OK. Das Dialogfeld URLs hinzufügen wird angezeigt.

Hinzufügen von URLs zur Sitemap

Das Dialogfeld URLs hinzufügen sieht wie folgt aus:

Screenshot des Dialogfelds

Die Sitemap-Datei ist im Grunde eine einfache XML-Datei, die URLs zusammen mit einigen Metadaten auflistet, z. B. Änderungshäufigkeit, Datum der letzten Änderung und relative Priorität. Sie verwenden das Dialogfeld URLs hinzufügen, um der XML-Datei Sitemap neue URL-Einträge hinzuzufügen. Jede URL in der Sitemap muss sich in einem vollqualifizierten URI-Format befinden (d. h. sie muss das Protokollpräfix und den Domänennamen enthalten). Das erste, was Sie angeben müssen, ist die Domäne, die für die URLs verwendet wird, die Sie der Sitemap hinzufügen möchten.

Die URL-Pfad-Strukturansicht wird verwendet, um auszuwählen, welche URLs der Sitemap für die Indizierung hinzugefügt werden sollen. Sie können aus mehreren Optionen auswählen, indem Sie die Dropdownliste „URL-Struktur“ verwenden:

  • Physischer Speicherort – Sie können die URLs aus dem physischen Dateisystemlayout Ihrer Website auswählen.
  • Von Siteanalyse (Analysename) aus - Sie können URLs aus der virtuellen URL-Struktur auswählen, die beim Analysieren der Site mit dem Siteanalysetool ermittelt wurde.
  • <Neue Siteanalyse ausführen...> - Sie können eine neue Siteanalyse ausführen, um die virtuelle URL-Struktur für Ihre Website abzurufen, und dann die URL-Pfade von dort auswählen, die Sie für die Indizierung hinzufügen möchten.

Nachdem Sie die Schritte im Abschnitt Voraussetzungen abgeschlossen haben, steht Ihnen eine Siteanalyse zur Verfügung. Wählen Sie sie aus der Dropdownliste aus, und überprüfen Sie dann die URLs, die der Sitemap hinzugefügt werden müssen.

Ändern Sie bei Bedarf die Optionen Änderungshäufigkeit, Datum der letzten Änderungund Priorität, und klicken Sie dann auf OK, um die URLs zur Sitemap hinzuzufügen. Eine sitemap.xml-Datei wird aktualisiert (oder erstellt, wenn sie nicht vorhanden ist), und der Inhalt sieht wie folgt aus:

<urlset>
  <url>
    <loc>http://myblog/2009/03/11/CongratulationsYouveInstalledDasBlogWithWebDeploy.aspx</loc>
    <lastmod>2009-06-03T16:05:02</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.5</priority>
  </url>
  <url>
    <loc>http://myblog/2009/06/02/ASPNETAndURLRewriting.aspx</loc>
    <lastmod>2009-06-03T16:05:01</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.5</priority>
  </url>
</urlset>

Hinzufügen des Sitemap-Speicherorts zur Robots.txt-Datei

Nachdem Sie nun eine Sitemap erstellt haben, müssen Sie die Suchmaschinen darüber informieren, wo sie sich befindet, damit sie mit der Verwendung beginnen können. Die einfachste Möglichkeit hierfür ist das Hinzufügen der URL des Sitemap-Speicherorts zur Robots.txt-Datei.

Wählen Sie im Feature Sitemaps und Sitemap-Indexe die soeben erstellte Sitemap aus, und klicken Sie dann im Bereich Aktionen auf Zu Robots.txt hinzufügen:

Screenshot des I S-Manager-Fensters und Hinzufügen von Sitemap zum Textdialogfeld

Ihre Robots.txt-Datei sieht in etwa wie folgt aus:

User-agent: *
Disallow: /EditService.asmx/
Disallow: /images/
Disallow: /scripts/
Disallow: /SyndicationService.asmx/
Disallow: /EditConfig.aspx
Disallow: /Login.aspx

Sitemap: http://myblog/sitemap.xml

Registrieren von Sitemaps bei Suchmaschinen

Zusätzlich zum Hinzufügen des Sitemap-Speicherorts zur Robots.txt-Datei wird empfohlen, dass Sie Ihre Sitemap-Standort-URL an die wichtigsten Suchmaschinen übermitteln. Auf diese Weise erhalten Sie nützliche Status und Statistiken zu Ihrer Website aus den Webmastern der Suchmaschine.

Zusammenfassung

In dieser exemplarischen Vorgehensweise haben Sie erfahren, wie Sie die Features Robots Exclusion und Sitemaps"des IIS Search Engine Optimization Toolkit verwenden, um die Robots.txt- und Sitemap-Dateien auf Ihrer Website zu verwalten. Das IIS Search Engine Optimization Toolkit bietet einen integrierten Satz von Tools, die Ihnen helfen, die Richtigkeit der Robots.txt- und Sitemap-Dateien zu erstellen und zu überprüfen, bevor Suchmaschinen sie verwenden.