• Hallo.

    Ich ahbe seit einiger zeit das Problem, dass ein bestimmter Bot für recihlichbTrafik auf meiner Site sorgt. Er gibt sich als Gaisbot/3.0+(robot06@gais.cs.ccu.edu.tw;+http://gais.cs.ccu.edu.tw/robot.php) aus. Nachdem er in etwa 14 Tagen für mehr als 80000 Hits und fast 4 GB Trafik gesorgt hatte, habe ich ihn per .htaccess ausgesperrt. Dazu habe ich folgendes verswendet:

    Code
    Order allow,deny
    Allow from all
    Deny from .seed.net.tw


    Das hat einige Tage gewirkt. Aber seit ein paar Tagen ist er wieder aktiv. Inzwischen sind es mehr als 100000 Hits und fast 5GB Trafik in diesem Monat durch diesen Bot. Er benutzt die Server

    • h65-203-73-108.seed.net.tw
    • h161-210-66-69.seed.net.tw
    • h97-203-70-234.seed.net.tw
    • h36-203-70-235.seed.net.tw
    • h44-203-70-235.seed.net.tw
    • h43-203-70-235.seed.net.tw
    • h37-203-70-235.seed.net.tw
    • h39-203-70-235.seed.net.tw
    • h41-203-70-235.seed.net.tw
    • h45-203-70-235.seed.net.tw
    • h34-203-70-235.seed.net.tw
    • h38-203-70-235.seed.net.tw
    • h42-203-70-235.seed.net.tw
    • h35-203-70-235.seed.net.tw
    • h33-203-70-235.seed.net.tw
    • h40-203-70-235.seed.net.tw

    und vielleicht ein paar andere.

    Wie kann man den Störenfried loswerden?

    Einmal editiert, zuletzt von Friedel (26. September 2008 um 11:46)

  • Diese Zeilen in der .htaccess sollten helfen:

    Apache Configuration
    RewriteEngine On
    RewriteCond %{HTTP_USER_AGENT} Gaisbot/3.0+
    RewriteRule ^.*$ - [F]

    Das "Gaisbot/3.0+" ist der Useragent des Bots, wenn der im Beispiel nicht stimmt, einfach mit dem richtigen Useragent ersetzen.

    Gruß,
    jojo


  • Danke. Aber das geht leider nicht. Ich muss mal nachsehen, warum das so ist, aber die Zeile

    Apache Configuration
    RewriteEngine On

    führt zu einem Fehler 500. Mir ist aber schon nicht klar, warum meine jetzige .htaccess nicht (mehr) zum gewünschten Erfolg führt.

  • Danke für die Antworten.

    Zitat

    Es könnte sein, dass auf deinem Host das Rewrite-Modul nicht installiertist.
    Obwohl das schon sehr ungewöhnlich ist......
    Frag dazu am besten mal deinen Hoster.


    Das Rewrite-Modul ist (und war) installiert und konfiguriert. Meinen Hoster konnte ich nicht fragen, denn dafür bin ich selbst zuständig. Das ist mein vServer. Ich bin nicht auf die Idee gekommen, dass das Modul installiert, aber nicht eingebunden sein könnte. So war es aber. Jetzt habe ich es eingebunden und die .htaccess angepasst. Hoffentlich bringt es was.

    Aber imho hätte die alte .htaccess den Bot doch auch aussperren müssen. Kann mir jemand sagen, warum das nicht geklappt hat?

    Beim Anblick des neuen Eintrags werde ich unsicher, ob meine robots.txt richtig ist. Da habe ich

    Code
    # robots.txt zu [URL]http://www.friedels-home.de/[/URL]
    User-agent: *
    Disallow: /emailform/
    User-agent: Gaisbot
    Disallow: /


    drin stehen. Ist "Gaisbot" richtig? Oder muss ich "Gaisbot/3.0+" oder sonst was schreiben?

  • entweder "^Gaisbot*" oder "Gaisbot/3.0+"
    Das erstere würde sich auf alle Useragents beziehen, die "Gaisbot" am Anfang haben und mit irgendwelchen Zeichen weitergehen, das Zweite exakt auf "Gaisbot/3.0+".
    Reguläre Ausdrücke sind sehr exakt ;)

    Grüße,
    jojo


  • Oha. Da hab ich mir das Leben schon seit ein paar Jahren unnötig schwer gemacht. Ich dachte, in der robots.txt könnte man keine regulären Ausdrücke verwenden. Nach diesen Antworten hab ich nochmal nachgesehen und festgestellt, dass das nur dür die Disallow-Strings gilt. Dann isses natürlich einfach. Danke.

  • Code
    Order allow,deny
    Allow from all
    Deny from .seed.net.tw

    Schon klar. Aber wenn er sich an die robots.txt hält, brauche ich mit mit der .htaccess nicht so viel Mühe zu geben, Offensichtlich bin ich den Bot jetzt los. Aber es war schon mal weg, nachdem ich

    Code
    Order allow,deny
    Allow from all
    Deny from .seed.net.tw

    in die .htaccess eingefügt habe. Aber nach ein paar Tagen war er wieder da. Mir ist immer noch nicht klar, wie das geht. Er hat definitiv http benutzt und er hat lauter Server benutzt, die auf "seed.net.tw" geendet haben. Ich würde gerne verstehen, wie das geht, bzw. wieso es geht.

  • Auch ich weiß nicht, ob es an der robots.txt oder an der .htaccess lag. Jedenfalls ist das Rewrite-Modul jetzt geladen. Der Text der .htaccess lautet

    In der robots.txt steht

    Code
    # robots.txt zu [URL]http://www.friedels-home.de/[/URL]
    User-agent: *
    Disallow: /emailform/
    User-agent: Gaisbot
    Disallow: /

    und der lästige Bot war seit dem Einbau vor 2 Wochen nicht mehr da. Ich habe jetzt 55% weniger Trafic, also nur noch weniger als die Hälfte wie vorher, und 5000 Hits pro Tag weniger. Offensichtlich hat dieser Bot also gezielt solche Hits gelandet, die viel Trafic verursachen. Er hat mit weniger als 25% der Hits mehr als 50% des Trafics verursacht.

    Einmal editiert, zuletzt von Friedel (15. Oktober 2008 um 16:58)