Weiß hier zufällig jemand, wie man ausgewählte, dynamisch generierte CGI-Seiten zuverlässig und risikofrei mittels robots.txt ausschließen kann? Irgendwie scheint Google einen Bug zu haben…
Wenn ich etwas nicht leiden mag, sind das CGI-Skript-URLs. Wie mir die Google-Webmaster-Zentrale meldet, wurden kürzlich ausgerechnet auf fob-marketing.de ca. 70 CGI-Skript-Seiten (fehlerhaft) gespidert. Diese Seiten kann es gar nicht geben, weil ich keine CGI-Skripte verwende. Nun möchte ich dem Google-Bot erklären, dass die Seiten nicht gespidert werden dürfen. Dafür scheint es allerdings keine offizielle robots.txt -Regel zu geben.
Das Problem:
Die gespiderten CGIs liegen nicht etwa in einem Unterverzeichnis. Sie liegen angeblich im Root-Verzeichnis der Domain. Entweder hat irgendein Idiot Unmengen blödsinniger Links gesetzt (die ich aber nicht lokalisieren kann) oder der Google-Bot hat einen Bug oder die Webmaster-Konsole hat einen Bug oder ich habe mal wieder ein Server-Problem. Egal. So sehen die untergejubelten URLs aus:
Variante 1: „https://www.fob-marketing.de/category.cgi?category=4“
Variante 2: „https://www.fob-marketing.de/forums.cgi?forum=33“
Variante 3: „https://www.fob-marketing.de/marketing/online-marketing/leobbs.cgi“
Zum leobbs.cgi – Problem meldet Google zur Zeit übrigens 196.000 Einträge. Vielleicht doch ein Google-Bug? Fremdeinwirkung kann ich auf meinem Server zumindest nicht erkennen.
Lösungsansätze:
Zum robots.txt -Standard gehören üblicherweise die einfachen Seiten- und Verzeichnisausschlüsse, wie
# — robots.txt Start — #
User-agent: *
Disallow: /temp/
Disallow: /cgi-bin/
Disallow: /bloss_nicht.html# — robots.txt Ende — #
Google erlaubt darüber hinaus robots.txt – Einträge, wie:
User-agent: Googlebot
Disallow: /verzeichnis
Disallow: /*.gif$
Disallow: /*?
Die Angaben gelten für Verzeichnisse, Bilder und dynamische URLs. (Vergleich: Webmaster Help Center)
Verzeichnisse ohne „/“ halte ich eigentlich für einen Fehler, weil viele Websites mittlerweile auf die Anzeige einer Dateiendung (….php, .html, .asp…) verzichten, was die Unterscheidung zwischen Seite und Verzeichnis für einen Bot ziemlich erschweren dürfte. Andere Bots verstehen unter einem Eintrag, wie „Disallow: /index“ zudem, dass alle Dateinamen nicht gespidert werden dürfen, welche mit „index“ beginnen. „/indexed-content/“ würde also ebenso ausgeschlossen werden, wie „index.html“. Dieses Problem tangiert her allerdings auch nur peripher…
Zurück zur eigentlichen Frage:
Hat jemand bereits erfolgreich getestet, ob der Google-Bot Angaben, wie *.* unterstützt?
Denkbare Lösungen wären vielleicht:
User-agent: Googlebot
Disallow: /*.cgi*$
Disallow: /*.cgi?Disallow: /categoy.cgi$
Disallow: /forums.cgi$Disallow: /category.cgi?
Disallow: /forums.cgi?oder einfach:
Disallow: /*.cgi* (???)
Hat`s jemand zufällig schon einmal ausprobiert?
Da ich selbst keine CGI-Seiten verwende, werde ich es erst einmal mit „Disallow: /*.cgi$“ versuchen. Für viele Nutzer von CGI-Skripten könnte es aber sehr interessant sein, zu erfahren, wie man Spider-Verbote bei CGI-Problemen obiger Art noch zielgenauer durchführen kann. Mich selbst interessiert es natürlich auch.
Gibt es dazu Empfehlungen?