Crawler nicht Links nicht-HTML-Dokumente SCHNELL ESP extrahieren

Problembeschreibung

Beim Crawlen von Inhalten kann der ESP-Crawler nicht Verknüpfen von nicht-HTML-Dokument extrahieren.

Ursache

Crawler-Konfiguration fehlt die MIME-Typen für nicht-HTML-Dokumente. Daher wurden die entsprechenden Links in diesen Dokumenten nicht gecrawlt.

Problemlösung

Aktualisieren der Crawler-Konfiguration auf die zugeordnete Dokument MIME-Typen.

Beispiel:
text/html
text/vnd.wap.wml
text/wml
text/x-wap.wml
x-application/wml
text/x-hdml
application/pdf
application/powerpoint

Konfiguration der Crawler zugeordneten Dokumente zu aktualisieren:

  1. Crawler-Konfiguration exportieren
    Syntax:
    Crawleradmin - G [Collectionname] > [Crawlerconfig] .xml

    Beispiel:
    Crawleradmin -G Mycollection > mycollectionconfig.xml
  2. Bearbeiten von XML [Crawlerconfig]
    Beispiel:
    Notepad.exe mycollectionconfig.xml
  3. Suchen Sie in der Datei "Uri_search_mime"
  4. Fügen Sie die zusätzlichen zugeordneten MIME-Typen
    Example:
    < Attrib Name = "Uri_search_mime" Type = "Liste String" >
    <member> text/html </member>
    <member> text/vnd.wap.wml </member>
    <member> text/wml </member>
    <member> text/x-wap.wml </member>
    <member> x-application/wml </member>
    <member> text/x-hdml </member>
    <member> application/pdf </member>
    <member> application/powerpoint </member>
    </attrib>
  5. Speichern Sie die Konfigurationsdatei
  6. Die Änderung der Crawler hochladen
    Example:
    Crawleradmin -f [Crawlerconfig] .xml
Eigenschaften

Artikelnummer: 2564900 – Letzte Überarbeitung: 10.01.2017 – Revision: 1

Feedback