De:Crawling Filter

Aus YaCyWiki
Wechseln zu: Navigation, Suche

Icon work.png TODO: Bitte formatieren!

Im erweiterten Crawl-Start-Menü lassen sich die zu indexierenden Adressen über reguläre Ausdrücke verfeinern.

Beispiele: Die erste Zeile zeigt den regulären Ausdruck (REGEX).

Zum ausfiltern aller Subdomains ausser der Subdomain www. und der Domain selbst:

   REGEX: (.*[^(www)]\.)domain\.tld/.*
   (.*[^(www)]\.)domain\.tld/.* matches NOT domain.tld/
   (.*[^(www)]\.)domain\.tld/.* matches NOT http://www.domain.tld/
   (.*[^(www)]\.)domain\.tld/.* matches NOT http://www.nichtdiedomain.tld/
   (.*[^(www)]\.)domain\.tld/.* matches NOT http://www.nichtdiedomain.tld/blaablub/
   (.*[^(www)]\.)domain\.tld/.* matches subdomain1.domain.tld/
   (.*[^(www)]\.)domain\.tld/.* matches subdomain2.domain.tld/
   (.*[^(www)]\.)domain\.tld/.* matches wwwsubdomain3.domain.tld/
   (.*[^(www)]\.)domain\.tld/.* matches http://www.subdomain4.domain.tld/

Ausser www. können auch weitere Subdomains hinzugefügt werden, hier z.b. subdomain

   REGEX: (.*[^(www)][^(sudomain2)]\.)domain\.tld/.*
   (.*[^(www)][^(sudomain2)]\.)domain\.tld/.* matches NOT domain.tld/
   (.*[^(www)][^(sudomain2)]\.)domain\.tld/.* matches NOT www.domain.tld/
   (.*[^(www)][^(sudomain2)]\.)domain\.tld/.* matches NOT www.nichtdiedomain.tld/
   (.*[^(www)][^(sudomain2)]\.)domain\.tld/.* matches NOT www.nichtdiedomain.tld/blaablub/
   (.*[^(www)][^(sudomain2)]\.)domain\.tld/.* matches subdomain1.domain.tld/
   (.*[^(www)][^(sudomain2)]\.)domain\.tld/.* matches NOT subdomain2.domain.tld/
   (.*[^(www)][^(sudomain2)]\.)domain\.tld/.* matches wwwsubdomain3.domain.tld/
   (.*[^(www)][^(sudomain2)]\.)domain\.tld/.* matches www.subdomain4.domain.tld/