De:WatchCrawler

Aus YaCyWiki
Wechseln zu: Navigation, Suche

Crawler Puffer

den Crawler beobachten

Diese Seite ist im Bereich Web Indexierung -> Crawl Start & Kontrolle über die Adresse http://localhost:8090/Crawler_p.html zu erreichen und beinhaltet wichtige Werkzeuge zur Steuerung und Überwachung von Webcrawls.


Funktionsleiste

Über die Funktionsleiste am ober Rand der Seite können verschiedene weitere Steuerungs- und Überwachungsseiten aufgerufen werden:


Steuerungselemente

Unterhalb der Funktionsleiste sind folgende Steuerungselemente zu finden:

Aktualisierungsgeschwindigkeit ermöglicht Ihnen den Zeitraum zur Aktualisierung der Seite eingestellt. Standardeinstellung sind 5 Sekunden. Um die Vorgabe zu ändern wird einfach eine neue Zahl in das Eingabefeld eingetragen. Diese wird automatisch aktiv, sobald in einen beliebigen anderen Bereich der Seite geklickt wird.

Geschwindigkeit ermöglicht mittels der Schaltflächen Minimum, benutzerdefiniert und Maximum die Arbeitsgeschwindigkeit des Crawlers zu beschränken. Die Begrenzung wird in PPM angegeben.


Überwachungselemente

Im restlichen Teil der Seite sind verschiedene Tabellen sichtbar, die eine große Anzahl von Kennzahlen beinhalten, die dazu dient dem Crawler bei der Arbeit über die Schulter zu sehen.


Pufferkennzahlen

In einer Tabelle werden für verschiedene Puffer (Zwischenspeicher) deren Name, die aktuelle Größe, Status sowie die maximale Größe angegeben. Im Einzelnen werden Kennzahlen für folgende Puffer angezeigt:

  • Indexieren - Heruntergeladene Seiten, die darauf warten indexiert zu werden.
  • Lader - URLs, die darauf warten heruntergeladen zu werden.
  • Lokaler Crawler - Seiten, die darauf warten vom eigenen Crawler bearbeitet zu werden.
  • Limit Crawler - Seiten, die darauf warten von einem Crawler auf einem beliebigen YaCy Peer bearbeitet zu werden.
  • Remote Crawler - Seiten, die darauf warten durch den eigenen Crawler für einen Crawler auf einem entfernten YaCy Peer bearbeitet zu werden.

Wird in der Statusspalte ein rotes Quadrat angezeigt, so werden die Einträge des jeweiligen Puffers bearbeitet. Durch einen Klick auf das Symbol kann die Bearbeitung angehalten werden. Das Symbol verwandelt sich dann in ein grünes Dreieck.


Datenbankkenzzahlen

In dieser Tabelle wird die Anzahl der aktuell im Index enthaltenen Seiten (URLs) und Wörter (RWI) angezeigt.


Crawlerkennzahlen

In dieser Tabelle werden drei wichtige Kennzahlen angezeigt:

  • PPM (Seiten pro Minute) - Anzahl der aktuell pro Minute durch den Crawler bearbeiteten Seiten.
  • Traffic (Crawler) - Menge der durch den Crawler aus dem Web geladenen Daten seit dem letzten Neustart von YaCy
  • RWI RAM (Wörter Zwischenspeicher) - Größe und Füllstand des RWI Puffers


Crawler Puffer

Den größten Teil der Seite nimmt eine Tabelle ein, in der für die aktuell verarbeiteten Seiten verschiedene Informationen angezeigt werden:

  • Puffer - Name des Puffers in dem sich die Seite befindet
  • Profil - Name des Crawler Profils, für das diese Seite bearbeitet wird
  • Auftraggeber - Peername als Quelle des Crawler Profils
  • Tiefe - Anzahl der Links denen der Crawler von der Ausgangsseite bis zur aktuellen Seite folgen musste
  • Änderungsdatum - Zeitpunkt der letzten Aktualisierung des Datensatzes im Puffer
  • Linktitel - Name der Seite
  • URL - nun ja, URL der Seite
  • Größe - Umfang der Seite in Bytes
  • Löschen - aktuell unbenutzt

CPU-Auslastung

Die Generierung von Grafiken mit Crawler-Statistiken in Echtzeit kann je nach Prozessor- Leistung zu wesentlicher CPU-Auslastung führen. Hier Zwei Beispiele:

CPU-Auslastung-Crawler Ueberwachung.png

Am rechten Rand ist das Anwachsen der CPU-Auslastung auf 100% zu sehen, sobald die Webseite Crawler_p.html geladen wird. Anmerkung: Der Screenshot bildet die CPU-Auslastung während eine Indexierung läuft. Angaben zum System: Intel Prozessor 1.3 GHz, 3GB RAM, Windows 7, 32 Bit. Und noch ein Beispiel:

CPU-Auslastung bei der Crawler-Überwachung verringern

Im Screenshot verwendetes Bild ist eine Abwandlung von Corvus_tasmanicus, das unter Creative Commons Attribution-Share Alike 3.0 Unported lizens veröffentlicht ist.

Crawler p Prozessor Auslastung.jpg

Wenn man die Webseite für die Crawler-Überwachung auf anderem PC, als der, auf dem YaCy ausgeführt wird, aufruft, dann ist die CPU-Auslastung vermutlich geringer - s. Beispiel oben.