Praxismarketing robots für Praxis-Website von Zahnarzt

Änderungen bei robots.txt

Bereits Feedfetcher und Goolge Read Aloud respektierten die robots.txt nicht. Seit dem 1. September achtet Google überhaupt nicht mehr auf einige Regeln der robots.txt. Diese kleine Text-Datei wird sehr oft von den Praxis-Websites vernachlässigt oder gar ignoriert. Welche Regeln sind betroffen? Warum hat Google diese Entscheidung getroffen? Und welche Maßnahmen müssen die Praxen für ihre Websites ergreifen? Das alles erklären wir kurz hier.

Eingestellte Regeln für robots.txt

Die robots.txt ist eine kleine text-Datei, welche auf dem Server liegt und die Regel für das Crawlen der Website durch die Roboter von Suchmaschinen festlegt.
Es wurde bestätigt und seit dem 1. September berücksichtigt die Suchmaschine Google mit ihrem Google-Bot und ihrem Mobile-Bot einige Regel nicht mehr.

Bei den Regeln handelt es sich um die Anweisungen noindex, nofollow und crawl-delay.
Noindex weist darauf hin, dass eine bestimmte Seite nicht indexirt werden muss. Das heißt, dass die Seite mit Ihrem Link nicht in den Suchergebnissen der Suchmaschine erscheinen darf. Nofollow gibt den Befehl, dass die Roboter die Links nicht weiter folgen müssen. Die Roboter crawlen sonst die Seiten, indem sie von einem Link zu dem anderen gehen.
Die Anweisung crawl-delay gibt eben an, nach welcher Zeit die Roboter die Seite erneut crawlen sollen.

Warum werden diese Regel eingestellt?

 

Google behauptet, es seien genug Alternative da, um diese Direktiven an die Roboter zu übermitteln. Und eigentlich stimmt es auch. Schauen wir mal, wie es sich auch lösen lässt.

Robots-Tags

In der Regel werden die Anweisungen auf noindex in die Meta-Tags oder X-Robots-Tags eingetragen.

Im Head-Bereich des HTML-Codes wird die Regel als Meta-Tag wie folgt angegeben:

 
 

In diesem Fall werden alle Suchmaschinen ausgeschlossen. Das heißt, dass die entsprechende Unterseite der Praxis-Website nirgendwo indexiert werden.

 Die Anweisung kann spezifizieren, für welchen Crawler die Direktive gilt. Wenn Sie die Indexierung von den Google-Suchergebnissen für Bilder verbieten möchten, geben Sie den entsprechenden Bot an: Googlebot-Image.
 

X-Robots-Tag steht in den HTTP-Regeln der Praxis-Website. Die Anweisungen können kombiniert werden und die Spezifizierung des Crawlers ist da auch möglich.

HTTP/1.1 200 OK
Date: Fri, 20 September 2019 21:16:02 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: otherbot: noindex, nofollow
(…)

Neben noindex, nofollow und none (welche entspricht der Kombination noindex , nofollow) können  weitere Anweisungen geschrieben werden.

noarchive: die Möglichkeit, eine archivierte Webseite durch den Link „Im Cache“ in den Suchergebnissen anzuzeigen, wird nicht mehr geboten,

nosnippet: Snippets und Videovorschau werden für die betroffene Seite nicht verfügbar (dafür eine Miniaturansicht, wenn vorhanden),

notranslate: Google schlägt in den Suchergebnissen nicht vor, die Seite zu übersetzen,

noimageindex: Bilder der Seite werden nicht indexiert,

unavailable_after: die Webseite der Praxis wird nach dem angegeben Datum aus dem Index herausgenommen.

 

Fehler-Meldung

Es besteht die Möglichkeit, einen 404-Status-Code bzw. einen 410-Status-Code zu nutzen. Es wird so der Suchmaschine mitgeteilt, dass die URL nicht zur Verfügung steht.
Seiten mit dieser Fehlermeldung werden nach gewisser Zeit ebenfalls von der Indexierung beseitigt. In der Tat verschwinden die Seiten aus den SERPs nicht sofort. Warum? Das erklärt Matt Cutts in einem Video. Matt ist weg und das Video ist alt, aber vermutlich noch nicht veraltet. (Sie können sich Ihre eigene Meinung bilden)

Die Fehlermeldungen gelten als nicht besonders „nutzerfreundlich“. Aus diesem Grund würde ich diese Methode nicht verwenden.
Dies heißt auch, dass Sie die URL nicht mehr nutzen werden… und das ist nicht immer unser Vorhaben, wenn wir die Anweisungen den Suchmaschinen geben wollen.

Seite mit Passwort schützen

Der Zugriff auf eine private Seite kann durch Passwort verweigert werden. Die Seite oder ein bestimmter Ordner können durch .htaccess mit Passwort geschützt werden.

Die für SEO-Check erstellten Unterseiten von PraMZa werden z.B. mit einem durch das CMS festgelegten Passwort geschützt und zusätzlich mit den Tags noindex und nofollow verziert.

 

Zahnarzt SEO Website Praxis mit Passwort schützen

Die Unterseiten für SEO-Check werden aber auf einer dritten Weise geschütz und zwar mit dr robots.txt-Datei.


Disallow/Allow-Direktive

Es ist m.E. die sinnvollste Verwendung der Robots.txt. In dem Fall kann die Praxis festlegen, welche Crawler bzw. welche Suchmaschinen befugt sind, die Website durchzucrawlen.
Für jeden Crawler kann ebenfalls angegeben werden, welche URL nicht gecrawlt werden dürfen. Dies heißt, dass die entsprechende Seite auch nicht indexiert wird.

Auf dieser Weise können komplette Verzeichnisse von dem Crawlen ausgeschlossen werden. 

Die Praxis kann u.a. Admin-Bereich und kritische Dateien vor der Indexierung beschirmen. 
Achten Sie dennoch darauf, dass „sensible“ URLs nicht genau angegeben werden, um eventuelle Angriffe zu vermeiden.

Für eine Zahnarztpraxis geht es in erster Linie bei den robots.txt-Dateien um Sicherheit im Gegenteil zu großen Online-Shops im E-Commerce, wo es auch darum geht, Bandbreite zu sparen.

Was müssen Sie für die Praxis-Website tun?

Eine Kontrolle lässt sich nicht vermeiden. Wenn Sie diese Anweisungen in Ihren robots.txt verwenden, sollen Sie schnell überprüfen, dass die entsprechenden Seiten mit Meta-Tags getaggt sind.

Sollen Sie die Direktive aus der Datei löschen? Nein.

Erstens werden die Anweisungen von Google nicht mehr berücksichtigt aber auch nicht bestraft. Wenn Sie diese in ihrer Robots.txt gelassen haben, wird Google diese einfach ignorieren. Und es befinden sich bereits ein paar SEO-Fachleute, die noch eine Wirkung der Anweisungen feststellen mögen.

Zweitens ist Google nicht die einzige Suchmaschine; auch wenn Sie eindeutig die Marktführerin ist. In der robots.txt von PraMZa werden sogar über 70 Crawlers bzw. User Agents ernannt, auch wenn es den Meisten lediglich das Crawlen der Website vollständig verboten wird.

URL-Ausschluss durch die Search Console

Und da muss betont werden, dass Google nicht die einzige Suchmaschine ist, welche die Website mit ihren Links und Inhalte referenziert. Auch wenn die Firma aus Mountain View ein Quasi-Monopol besitzt.
Dementsprechend muss man von der letzten Alternative von Google vorwarnen. Die Lösung besteht darin, die ungewünschte Indexierung einer URL über die Search Console (damals Webmaster-Tools) zu beantragen.
Diese Funktion ist (wenn ich mich nicht irre) nur noch über die alte Version der Search Console vorhanden. Sonst muss man sich über den Support von Google durchklicken.
Sie ist sehr praktisch um Fehler zu korrigieren. Unter anderen wenn es darum geht, durch Duplicate Content verursachte Probleme zu beheben.
Sie hat dennoch den Nachteil, dass alle Varianten der URL aus dem Google-Index herausgenommen werden (http, https, www und weitere subdomains).
Und es gilt eben nur für den Google-Index. Mit dieser „Alternative“ zu der robots.txt werden unerwünschte Indexierung bei den anderen Suchmaschinen nicht geklärt und so bleibt eventuell kritiische sensible Content Ihrer Praxis-Website für Unbefugten trotzdem zugänglich. 

Schreiben Sie hier Ihren Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.