De:Crawling Filter
Aus YaCyWiki
Im erweiterten Crawl-Start-Menü lassen sich die zu indexierenden Adressen über reguläre Ausdrücke verfeinern.
Beispiele: Die erste Zeile zeigt den regulären Ausdruck (REGEX).
Zum ausfiltern aller Subdomains ausser der Subdomain www. und der Domain selbst:
REGEX: (.*[^(www)]\.)domain\.tld/.* (.*[^(www)]\.)domain\.tld/.* matches NOT domain.tld/ (.*[^(www)]\.)domain\.tld/.* matches NOT http://www.domain.tld/ (.*[^(www)]\.)domain\.tld/.* matches NOT http://www.nichtdiedomain.tld/ (.*[^(www)]\.)domain\.tld/.* matches NOT http://www.nichtdiedomain.tld/blaablub/ (.*[^(www)]\.)domain\.tld/.* matches subdomain1.domain.tld/ (.*[^(www)]\.)domain\.tld/.* matches subdomain2.domain.tld/ (.*[^(www)]\.)domain\.tld/.* matches wwwsubdomain3.domain.tld/ (.*[^(www)]\.)domain\.tld/.* matches http://www.subdomain4.domain.tld/
Ausser www. können auch weitere Subdomains hinzugefügt werden, hier z.b. subdomain
REGEX: (.*[^(www)][^(sudomain2)]\.)domain\.tld/.* (.*[^(www)][^(sudomain2)]\.)domain\.tld/.* matches NOT domain.tld/ (.*[^(www)][^(sudomain2)]\.)domain\.tld/.* matches NOT www.domain.tld/ (.*[^(www)][^(sudomain2)]\.)domain\.tld/.* matches NOT www.nichtdiedomain.tld/ (.*[^(www)][^(sudomain2)]\.)domain\.tld/.* matches NOT www.nichtdiedomain.tld/blaablub/ (.*[^(www)][^(sudomain2)]\.)domain\.tld/.* matches subdomain1.domain.tld/ (.*[^(www)][^(sudomain2)]\.)domain\.tld/.* matches NOT subdomain2.domain.tld/ (.*[^(www)][^(sudomain2)]\.)domain\.tld/.* matches wwwsubdomain3.domain.tld/ (.*[^(www)][^(sudomain2)]\.)domain\.tld/.* matches www.subdomain4.domain.tld/