Archiv vom 'Februar 12th, 2012'

Die Pixray-Pest

Crawler sind heutzutage ja schon eine echte Seuche geworden. Gottseidank hören die meisten aber auf die robots.txt und verschwinden relativ schnell wieder. Wenn der Crawler aber einem Handlanger der Content-Mafia und Abmahnindustrie gehört, sieht das schon ganz anders aus. Da wird penetrant die robots.txt ignoriert und in einer Frequenz gecrawlt, dass mein kleiner Server schnell an seine Grenzen stösst.
Inzwischen habe ich ihn durch einige Einträge in der .htaccess ausgesperrt:

RewriteCond %{HTTP_USER_AGENT} .*[Pp]ixray.*
RewriteRule ^.*$ http://www.pixray.com/crawl-yourself.html [R=301,L]
RewriteCond %{REMOTE_ADDR} ^46\.4\.19\.85 [OR]
RewriteCond %{REMOTE_ADDR} ^176\.9\.19\.103 [OR]
RewriteCond %{REMOTE_ADDR} ^176\.9\.0\.12 [OR]
RewriteCond %{REMOTE_ADDR} ^176\.9\.0\.13 [OR]
RewriteCond %{REMOTE_ADDR} ^176\.9\.19\.103 [OR]
RewriteCond %{REMOTE_ADDR} ^176\.9\.31\.201 [OR]
RewriteCond %{REMOTE_ADDR} ^176\.9\.31\.202 [OR]
RewriteCond %{REMOTE_ADDR} ^176\.9\.31\.203 [OR]
RewriteCond %{REMOTE_ADDR} ^176\.9\.7\.28 [OR]
RewriteCond %{REMOTE_ADDR} ^188\.40\.65\.130 [OR]
RewriteCond %{REMOTE_ADDR} ^188\.40\.66\.214 [OR]
RewriteCond %{REMOTE_ADDR} ^188\.40\.85\.200 [OR]
RewriteCond %{REMOTE_ADDR} ^46\.4\.116\.100 [OR]
RewriteCond %{REMOTE_ADDR} ^46\.4\.119\.231 [OR]
RewriteCond %{REMOTE_ADDR} ^46\.4\.121\.154 [OR]
RewriteCond %{REMOTE_ADDR} ^46\.4\.19\.85 [OR]
RewriteCond %{REMOTE_ADDR} ^78\.46\.90\.27 [OR]
RewriteCond %{REMOTE_ADDR} ^88\.198\.64\.3 [OR]
RewriteCond %{REMOTE_ADDR} ^88\.198\.65\.99 [OR]
RewriteCond %{REMOTE_ADDR} ^88\.198\.67\.197 [OR]
# bei Bedarf hier weitere IP

Auffallend dabei, dass der Crawler aus dem Hetzner-Netz kommt, was mit Sicherheit bei steigender Penetranz dazu führen wird, dass ich das gesamte Hetzner-Segment direkt per iptables erden werde. Es ist mir unbegreiflich, wie man bei Hetzner solche Kunden dulden kann, wo sie so offensichtlich gegen die Bestimmungen verstoßen..