1. Dashboard
  2. Artikel
  3. Mitglieder
    1. Letzte Aktivitäten
    2. Benutzer online
    3. Team
    4. Mitgliedersuche
  4. Forum
    1. Unerledigte Themen
  • Anmelden
  • Registrieren
  • Suche
Dieses Thema
  1. HTML - Webmaster Forum
  2. HTML / Webmaster Forum
  3. HTML & CSS Forum

Bot aussperren

  • Friedel
  • 26. September 2008 um 11:39
1. offizieller Beitrag
  • Friedel
    Interessierte/r
    Beiträge
    114
    • 26. September 2008 um 11:39
    • #1

    Hallo.

    Ich ahbe seit einiger zeit das Problem, dass ein bestimmter Bot für recihlichbTrafik auf meiner Site sorgt. Er gibt sich als Gaisbot/3.0+(robot06@gais.cs.ccu.edu.tw;+http://gais.cs.ccu.edu.tw/robot.php) aus. Nachdem er in etwa 14 Tagen für mehr als 80000 Hits und fast 4 GB Trafik gesorgt hatte, habe ich ihn per .htaccess ausgesperrt. Dazu habe ich folgendes verswendet:

    Code
    Order allow,deny
    Allow from all
    Deny from .seed.net.tw


    Das hat einige Tage gewirkt. Aber seit ein paar Tagen ist er wieder aktiv. Inzwischen sind es mehr als 100000 Hits und fast 5GB Trafik in diesem Monat durch diesen Bot. Er benutzt die Server

    • h65-203-73-108.seed.net.tw
    • h161-210-66-69.seed.net.tw
    • h97-203-70-234.seed.net.tw
    • h36-203-70-235.seed.net.tw
    • h44-203-70-235.seed.net.tw
    • h43-203-70-235.seed.net.tw
    • h37-203-70-235.seed.net.tw
    • h39-203-70-235.seed.net.tw
    • h41-203-70-235.seed.net.tw
    • h45-203-70-235.seed.net.tw
    • h34-203-70-235.seed.net.tw
    • h38-203-70-235.seed.net.tw
    • h42-203-70-235.seed.net.tw
    • h35-203-70-235.seed.net.tw
    • h33-203-70-235.seed.net.tw
    • h40-203-70-235.seed.net.tw

    und vielleicht ein paar andere.

    Wie kann man den Störenfried loswerden?

    Einmal editiert, zuletzt von Friedel (26. September 2008 um 11:46)

  • jojo87
    der/die Göttliche
    Reaktionen
    6
    Beiträge
    3.131
    • 26. September 2008 um 13:51
    • #2

    Diese Zeilen in der .htaccess sollten helfen:

    Apache Configuration
    RewriteEngine On
    RewriteCond %{HTTP_USER_AGENT} Gaisbot/3.0+
    RewriteRule ^.*$ - [F]

    Das "Gaisbot/3.0+" ist der Useragent des Bots, wenn der im Beispiel nicht stimmt, einfach mit dem richtigen Useragent ersetzen.

    Gruß,
    jojo


  • Friedel
    Interessierte/r
    Beiträge
    114
    • 27. September 2008 um 06:42
    • #3

    Danke. Aber das geht leider nicht. Ich muss mal nachsehen, warum das so ist, aber die Zeile

    Apache Configuration
    RewriteEngine On

    führt zu einem Fehler 500. Mir ist aber schon nicht klar, warum meine jetzige .htaccess nicht (mehr) zum gewünschten Erfolg führt.

  • jojo87
    der/die Göttliche
    Reaktionen
    6
    Beiträge
    3.131
    • 27. September 2008 um 10:53
    • #4

    Es könnte sein, dass auf deinem Host das Rewrite-Modul nicht installiertist.
    Obwohl das schon sehr ungewöhnlich ist......
    Frag dazu am besten mal deinen Hoster.

    Gruß,
    Jojo


  • admin
    Administrator
    Reaktionen
    6
    Artikel
    1
    Beiträge
    12.794
    • 28. September 2008 um 19:07
    • Offizieller Beitrag
    • #5

    Zur Not schließe einfach ganz TW aus.
    Aus Taiwan bekommst du bestimmt keine Besucher, die deine HP besuchen wollen.

    Code
    Deny from .tw
  • Friedel
    Interessierte/r
    Beiträge
    114
    • 29. September 2008 um 09:36
    • #6

    Danke für die Antworten.

    Zitat

    Es könnte sein, dass auf deinem Host das Rewrite-Modul nicht installiertist.
    Obwohl das schon sehr ungewöhnlich ist......
    Frag dazu am besten mal deinen Hoster.


    Das Rewrite-Modul ist (und war) installiert und konfiguriert. Meinen Hoster konnte ich nicht fragen, denn dafür bin ich selbst zuständig. Das ist mein vServer. Ich bin nicht auf die Idee gekommen, dass das Modul installiert, aber nicht eingebunden sein könnte. So war es aber. Jetzt habe ich es eingebunden und die .htaccess angepasst. Hoffentlich bringt es was.

    Aber imho hätte die alte .htaccess den Bot doch auch aussperren müssen. Kann mir jemand sagen, warum das nicht geklappt hat?

    Beim Anblick des neuen Eintrags werde ich unsicher, ob meine robots.txt richtig ist. Da habe ich

    Code
    # robots.txt zu [URL]http://www.friedels-home.de/[/URL]
    User-agent: *
    Disallow: /emailform/
    User-agent: Gaisbot
    Disallow: /


    drin stehen. Ist "Gaisbot" richtig? Oder muss ich "Gaisbot/3.0+" oder sonst was schreiben?

  • jojo87
    der/die Göttliche
    Reaktionen
    6
    Beiträge
    3.131
    • 29. September 2008 um 11:15
    • #7

    entweder "^Gaisbot*" oder "Gaisbot/3.0+"
    Das erstere würde sich auf alle Useragents beziehen, die "Gaisbot" am Anfang haben und mit irgendwelchen Zeichen weitergehen, das Zweite exakt auf "Gaisbot/3.0+".
    Reguläre Ausdrücke sind sehr exakt ;)

    Grüße,
    jojo


  • The User
    Forum Guru
    Beiträge
    4.044
    • 29. September 2008 um 13:51
    • #8

    Das ^Gaisbot* bedeutet doch am Anfang Gaisbo und dann 0-unendlich viele 't's. ;)
    Also ^Gaisbot sollte reichen, sicherheitshalber vielleicht ^Gaisbot.*$ ;)

    Freiheit bedeutet mehr.

    "Mir ist die gefährliche Freiheit lieber als eine ruhige Knechtschaft."
    (Jean Jacques Rousseau)
    Mein Blog zum Programmieren, GNU/Linux etc.
    Free Chelsea Manning!
    Stolzer Nutzer von KDE, openSUSE und Qt.

  • Friedel
    Interessierte/r
    Beiträge
    114
    • 30. September 2008 um 06:54
    • #9

    Oha. Da hab ich mir das Leben schon seit ein paar Jahren unnötig schwer gemacht. Ich dachte, in der robots.txt könnte man keine regulären Ausdrücke verwenden. Nach diesen Antworten hab ich nochmal nachgesehen und festgestellt, dass das nur dür die Disallow-Strings gilt. Dann isses natürlich einfach. Danke.

  • DarkSyranus
    Shogun
    Beiträge
    3.446
    • 30. September 2008 um 16:42
    • #10

    Also, ich weis wirklich nicht ob sich der Bot an deine robots.txt halten will, die kann ihm auch scheiss egal sein.
    Wenn du ihn wirklich ausschließen willst, dann mach das über die .htaccess.

    Zitat

    Das Protokoll ist rein hinweisend und ist auf die Mitarbeit des Webcrawlers angewiesen.

    [Blockierte Grafik: http://img28.imageshack.us/img28/7551/anleitungt.jpg]

  • Friedel
    Interessierte/r
    Beiträge
    114
    • 1. Oktober 2008 um 08:02
    • #11
    Code
    Order allow,deny
    Allow from all
    Deny from .seed.net.tw

    Schon klar. Aber wenn er sich an die robots.txt hält, brauche ich mit mit der .htaccess nicht so viel Mühe zu geben, Offensichtlich bin ich den Bot jetzt los. Aber es war schon mal weg, nachdem ich

    Code
    Order allow,deny
    Allow from all
    Deny from .seed.net.tw

    in die .htaccess eingefügt habe. Aber nach ein paar Tagen war er wieder da. Mir ist immer noch nicht klar, wie das geht. Er hat definitiv http benutzt und er hat lauter Server benutzt, die auf "seed.net.tw" geendet haben. Ich würde gerne verstehen, wie das geht, bzw. wieso es geht.

  • Friedel
    Interessierte/r
    Beiträge
    114
    • 15. Oktober 2008 um 16:53
    • #12

    Auch ich weiß nicht, ob es an der robots.txt oder an der .htaccess lag. Jedenfalls ist das Rewrite-Modul jetzt geladen. Der Text der .htaccess lautet

    Apache Configuration
    # Hosts aussperren
    Order allow,deny
    Allow from all
    Deny from .seed.net.tw
    Deny from h65-203-73-108.seed.net.tw
    Deny from h161-210-66-69.seed.net.tw
    Deny from h97-203-70-234.seed.net.tw
    Deny from h36-203-70-235.seed.net.tw
    Deny from h44-203-70-235.seed.net.tw
    Deny from h43-203-70-235.seed.net.tw
    Deny from h37-203-70-235.seed.net.tw
    Deny from h39-203-70-235.seed.net.tw
    Deny from h41-203-70-235.seed.net.tw
    Deny from h45-203-70-235.seed.net.tw
    Deny from h34-203-70-235.seed.net.tw
    Deny from h38-203-70-235.seed.net.tw
    Deny from h42-203-70-235.seed.net.tw
    Deny from h35-203-70-235.seed.net.tw
    Deny from h33-203-70-235.seed.net.tw
    Deny from h40-203-70-235.seed.net.tw
    RewriteEngine On
    RewriteCond %{HTTP_USER_AGENT} Gaisbot/3.0+
    RewriteRule ^.*$ - [F]
    # Stop Trafic-Klau
    RewriteCond %{HTTP_REFERER} !^$
    RewriteCond %{HTTP_REFERER} !^http://(www\.)?friedels-home\.de(/.*)?$ [NC]
    RewriteRule \.(gif|jpg|GIF|JPG|js|JS)$ [URL='http://f-i-t.net/geklaut.gif'][COLOR=#800080]http://f-i-t.net/geklaut.gif[/COLOR][/URL] [R,L]
    Alles anzeigen

    In der robots.txt steht

    Code
    # robots.txt zu [URL]http://www.friedels-home.de/[/URL]
    User-agent: *
    Disallow: /emailform/
    User-agent: Gaisbot
    Disallow: /

    und der lästige Bot war seit dem Einbau vor 2 Wochen nicht mehr da. Ich habe jetzt 55% weniger Trafic, also nur noch weniger als die Hälfte wie vorher, und 5000 Hits pro Tag weniger. Offensichtlich hat dieser Bot also gezielt solche Hits gelandet, die viel Trafic verursachen. Er hat mit weniger als 25% der Hits mehr als 50% des Trafics verursacht.

    Einmal editiert, zuletzt von Friedel (15. Oktober 2008 um 16:58)

Tags

  • besucher
  • hp
  • server
  • color
  • http
  • problem
  • code
  • php
  • zeichen
  • .htaccess
  • bot
  • ts
  • access
  • hinweise
  • agent
  • protokoll
  • robots
  • robots.txt
  • rewrite
  • aussperren
  • age
  1. Datenschutzerklärung
  2. Impressum
Community-Software: WoltLab Suite™
  • Alles
  • Dieses Thema
  • Dieses Forum
  • Artikel
  • Seiten
  • Forum
  • Erweiterte Suche
Zitat speichern