Griebie Logo

Bots und phpBB

Session-Ids in den Crawling-Logs

phpBB ist eine weit verbreitete OpenSource Forensoftware. Qualitativ hochwertig, aber nicht immer intuitiv zu bedienen. Und wird bei der Erstellung der Foren nicht genau aufgepasst, kann die intern mitgebrachte Logik ungenutzt verloren gehen. Der Aspekt hier: Wenn wir als Besucher ein Forum aufrufen und die URL anschauen, sehen wir, dass dort eine Session-ID an das Ende der URL gehängt wird: &sid=b97e002b51e823d905e95de2c9a9eb86. Session-IDs in URLs von phpBB sind nicht schlimm. Falsche Benutzergruppen-Konfiguration aber schon. Versuche, diese immer zu entfernen, sollten aus meiner Sicht nicht betrieben werden. Problematisch kann es nur werden, wenn wir vergessen, unsere Bots richtig zu leiten. Denn phpBB bringt eine eigene Logik zur Behandlung der vielen Suchmaschinen-Bots mit. Und diese sollten wir nutzen.

Die Bots-Benutzergruppe in phpBB

Admin-Übersicht zur Bearbeitung der Berechtigungen

Unter den voreingestellten Benutzergruppen in phpBB Foren befindet sich eine mit dem Namen "Bots". Diese beinhaltet alle bekannten Bots der Suchmaschinen und kann diese identifizieren, wenn sie auf ein Forum stoßen - und sicherstellen, dass eben diese Bots beim Betrachten eines Forums keine Session-ID an die URL bekommen. Sonst wären für sie die URLs nicht bei jedem Besuch mit neuer Session-ID neu und sie würden längst bekannten Content vielfach indizieren. Dafür muss dieser Gruppe aber auch die entsprechende Rolle pro Forum zugewiesen werden, damit die Logik greift.

Dafür können wir im Reiter "Berechtigungen" im linken Panel der Admin-Oberfläche unter "Berechtigungs-Rollen" die Forums-Rollen anzeigen lassen. Die Liste der hier genannten Foren mit der Gruppenzuordnung "Bots" ist korrekt eingestellt, fehlt allerdings ein Forum in dieser Liste fügen wir das im nächsten Schritt hinzu.

Forums-Berechtigungen für Bots setzen

Im selben Admin-Bereich können wir die "Gruppenspezifischen Forenrechte" einstellen. Wenn wir das oder die zu bearbeitenden Foren ausgewählt und die Bots-Gruppe zuordnen können wir im Pull-Down die Rolle "Bots und Spiders" zuweisen. Abspeichern und kontrollieren, ob die Gruppe in der Liste nun auftaucht.

Robots.txt

Die für Bots interessanten URLs in einem phpBB Forum sind die Aufrufe über viewforum.php bzw. viewtopic.php - der Rest kann oder sollte ihnen am besten verborgen bleiben. Ich steige nicht in die Diskussion ein, ob bots die robots.txt beachten oder nicht - ob es die "guten" machen und die schlechten nicht.

Ich empfehle hier, alle anderen Folder des Projekts auszuschließen, z.b.:

 

Disallow: /adm/
Disallow:: /styles/
Disallow: config.php
...

bis nur noch die beiden genannten Dateien gecrawlt werden sollen.

Veröffentlicht: 18.03.21

Write comment

* Pflichtfelder

Comments

No Comments