PR0 - Die PageRank 0 Bestrafung:
Seit Ende des Jahres 2001 greift die Bestrafung
von Websites mit einem PageRank von 0 um sich. In einschlägigen
Suchmaschinenoptimierungs-Foren hat sich hierfür die Kurzform
PR0 eingebürgert und diese soll auch hier benutzt werden. PR0
ist dadurch gekennzeichnet, dass alle - oder zumindest viele - Seiten
einer Website in der Google Toolbar einen PageRank von
0 aufweisen, obwohl diese mitunter qualitativ hochwertige eingehende
Links aufweisen können. Sie sind nicht vollkommen aus dem Index
entfernt, erscheinen aber in Suchergebnissen stets ganz unten und
sind somit praktisch nicht aufzufinden.
Einem
PageRank von 0 muss natürlich nicht immer eine Bestrafung
zu Grunde liegen. Vielen vermeintlich bestraften Seiten mangelt
es schlicht an eingehenden Links mit entsprechend hohem PageRank.
Wenn aber die Seiten einer Site, die vormals gut in den Suchergebnissen
platziert waren, plötzlich die gefürchtete weiße
PageRank-Anzeige aufweisen, und sich hinsichtlich der eingehenden
Links der Site nichts wesentliches verändert hat, liegt nach
herrschender Meinung eine Bestrafung durch Google vor.
Über die tatsächlichen Ursachen des PR0 kann
natürlich nur spekuliert werden. Da seitens Google mittlerweile
nicht mehr über technische Details und grundlegende Algorithmen
publiziert wird, sind schließlich erforderliche Hintergrundinformationen
kaum oder gar nicht verfügbar. Nichtsdestotrotz soll wegen
der tiefgreifenden Auswirkungen von PR0 ein theoretischer Ansatz
hierfür geliefert werden.
Hintergründe des PageRank0
- PR0:
Suchmaschinen-Spam ist eines der großen Probleme
mit denen Suchmaschinen-Betreiber seit jeher zu kämpfen haben.
Die übliche Vorgehensweise gegen Spam war immer, dass - sobald
Spam identifiziert wird - die entsprechenden Domains oder auch gleich
IP-Adressen in der Regel für unbestimmte Zeit aus dem Index
verbannt werden.
Ein derartiges manuelles Entfernen von Websites
aus dem Index ist immer mit einem hohen Personalaufwand verbunden.
Dies läuft der stets von Google angestrebten hohen Skalierbarkeit
der Suchmaschine zuwider. Es ist hiermit also erforderlich, Spam
automatisiert zu filtern. Hierdurch entsteht jedoch die Gefahr,
auch viele unschuldige Webmaster zu bestrafen. Die eingesetzten
Filter dürfen also nur sehr sensibel auf potentiellen Spam
reagieren. Um dabei dennoch effektiv zu sein, kann es - wie auch
im Rahmen des PageRank-Verfahrens - sinnvoll sein, Linkstrukturen
zu analysieren.
Eine derartige Vorgehensweise wurde von einem Mitarbeiter
Google's, der unter dem Pseudonym GoogleGuy auftritt, mehrmals mehr
oder weniger eindeutig im Google-Forum von WebmasterWorld bestätigt.
Bekannt wurde sie als Bestrafung für das "linking to bad neighborhoods".
Im folgenden soll erörtert werden, wie eine derartige Identifikation
von Spam über die Analyse von Linkstrukturen realisiert werden
kann. Insbesondere soll dabei gezeigt werden, wie mittels solcher
Verfahren ganze Netzwerke von Spam-Seiten, die gegebenenfalls auch
auf viele verschiedene Domains verteilt sind, ans Ende der Ergebnisseiten
verbannt werden können.
BadRank als Umkehrung von PageRank:
Der hier präsentierte theoretische Ansatz
zum PR0 wurde grundlegend zuerst von Raph Levien (www.advogato.org/person/raph)
formuliert. Basis dieses Ansatzes ist es, dass neben PageRank
ein weiteres Verfahren eingeführt wird, das nicht wie PageRank
die grundsätzliche Bedeutung einer Webseite im positiven Sinne
bestimmt, sondern vielmehr die negativen Eigenschaften von Webseiten
misst. Der Einfachheit halber soll dieses Verfahren hier BadRank
genannt werden.
Das
"linking to bad neighborhoods" bildet die Grundlage für den
BadRank. Eine Seite, die auf eine andere Seite mit einem hohen BadRank
verlinkt, erhält hierdurch tendenziell selbst einen hohen BadRank.
Hiermit werden die Parallelen zu PageRank bereits offentsichtlich,
nur dass BadRank nicht auf der Bewertung der eingehenden Links einer
jeweiligen Webseite beruht, sondern vielmehr auf deren eigenen ausgehenden
Links. In diesem Sinne ist BadRank gewissermaßen eine Umkehrung
von PageRank. In einer direkten Adaption des PageRank
Algorithmus würde sich die folgende Formel für den BadRank
ergeben:
BR(A) = E(A) (1-d) + d (BR(T1)/C(T1)
+ ... + BR(Tn)/C(Tn))
Hierbei ist:
- BR(A) der BadRank von Seite A,
- BR(Ti) der BadRank derjenigen Seiten T, auf die Seite A verlinkt,
- C(Ti) die Anzahl der eingehenden Links der jeweiligen Seite
Ti und
- d der auch hier erforderliche Dämpfungsfaktor.
Der Wert E(A) entsprach im Rahmen einer der hier
diskutierten Modifikationen des PageRank Algorithmus der manuellen
Höherbewertung spezifischer Webseiten. Im Rahmen des BadRank
Algorithmus reflektiert dieser Wert, ob eine Seite beim spidern
des Webs von einem Spam-Filter erfasst wurde. Ohne diesen Wert E(A)
wäre der BadRank Algorithmus vollkommen nutzlos, da es sich
wiederum lediglich um eine Analyse von Linkstrukturen handeln würde,
der aber keine weiteren Kriterien zu Grunde lägen.
Mit Hilfe des hier präsentierten BadRank-Algorithmus
können also zunächst Spam-Seiten erfasst werden. Ihnen
wird dann über E(A) ein numerischer Wert zugewiesen, der beispielsweise
der Schwere des Spammings entspricht oder sich vielleicht besser
am PageRank einer jeweiligen Seite orientiert, wobei die Summe
aller E(A) gleich der Anzahl der Webseiten sein muss. Im Laufe einer
iterativen Berechnung überträgt sich dieser zugewiesene
Wert dann nicht nur als BadRank auf diejenigen Seiten, die auf Spam-Seiten
verlinken. Vielmehr wäre BadRank in der Lage, Regionen des
Webs zu identifizieren, in denen Spam besonders häufig auftritt,
ganz ähnlich wie PageRank Regionen des Webs identifiziert,
denen eine grundlegende Bedeutsamkeit zukommt.
BadRank
und PageRank weisen dabei natürlich gravierende Unterschiede
auf, die vor allem darin begründet sind, dass die Verteilung
von eingehenden und ausgehenden Links ganz entscheidend voneinander
abweicht. Unser Beispiel stellt eine einfache, hierarchisch strukturierte
Website dar, die natürliche Linkstrukturen wohl recht gut abbildet.
Dabei verlinken alle Seiten jeweils auf all diejenigen Seiten, die
hierarchisch über ihnen angeordnet sind. Zudem verlinken sie
auf die ihnen direkt untergeordneten Seiten und diejenigen Seiten
innerhalb einer solchen Kategorie verlinken wiederum einander.
Die Verteilung der eingehenden und ausgehenden
Links innerhalb einer derartigen Site gibt die folgende Tabelle
wieder.
| Ebene |
Eingehende Links |
Ausgehende Links |
| 0 |
6 |
2 |
| 1 |
4 |
4 |
| 2 |
2 |
3 |
Wie zu erwarten, erfolgt hinsichtlich der eingehenden
Links eine hierarchische Abstufung von oben nach unten. Die Anzahl
der ausgehenden Links ist hingegen in der mittleren Hierarchiestufe
am höchsten. Ein ganz ähnliches Bild zeigt sich, wenn
wir eine weitere Ebene unten in unsere Beispiel-Site einfügen,
die den oben beschriebenen Richtlinien folgt:
| Ebene |
Eingehende Links |
Ausgehende Links |
| 0 |
14 |
2 |
| 1 |
8 |
4 |
| 2 |
4 |
5 |
| 3 |
2 |
4 |
Wiederum konzentriert sich die Zahl der ausgehenden
Links in den mittleren Hierarchiestufen. Vor allem aber, ist die
Verteilung der ausgehden Links wesentlich gleichmäßiger
als die der eingehenden Links.
Wenn wir in unserem ursprünglichen Beispiel
der Index-Seite A einen Wert E(A) gleich 100 zuweisen, wobei alle
anderen Werte E gleich 1 sind, ergeben sich bei einem Dämpfungsfaktor
d von 0.85 die folgenden BadRank-Werte:
| Seite |
BadRank |
| A |
22.39 |
| B/C |
17.39 |
| D/E/F/G |
12.21 |
Es zeigt sich, dass der BadRank sich von der Index-Seite
aus weiter auf alle anderen Seiten der Site verteilt. Auf die Kombination
von BadRank und PageRank wird weiter unten noch detaillierter
eingegangen, ganz gleich jedoch, wie diese erfolgt, ist es unmittelbar
ersichtlich, dass beide sich sehr gut neutralisieren könnten.
Schließlich können wir davon ausgehen, dass auch der
PageRank abnimmt, je weiter wir uns in der Seitenhierarchie
nach unten bewegen. Mit einer derartigen Neutralisierung kann in
jedem Falle ein PR0 für alle Seiten erreicht werden.
Nehmen wir nun andererseits an, dass die hierachisch
nachgeordnete Seite G auf eine Seite X mit einem fixen BadRank BR(X)=10
verlinkt, wobei der Link von Seite G der einzige eingehende Link
von Seite X ist und alle Werte E für unser Beispiel-Site gleich
1 sind, ergeben sich bei einem Dämpfungsfaktor d von 0.85 die
folgenden Werte:
| Seite |
BadRank |
| A |
4.82 |
| B |
7.50 |
| C |
14.50 |
| D |
4.22 |
| E |
4.22 |
| F |
11.22 |
| G |
17.18 |
Hier ist die Verteilung des BadRank weit weniger
homogen als im vorangegangenen Szenario. Nichtsdestotrotz erfolgt
eine Distribution des BadRank über die gesamte Site. Bemerkenswert
ist, dass der BadRank der Index-Seite A relativ gering ist. Es wäre
damit problematisch, einen im Vergleich zu den anderen Seiten höheren
PageRank gleichermaßen zu neutralisieren. Dieser Effekt
mag wenig wünschenswert sein, er spiegelt jedoch die Beobachtungen
zahlreicher Webmaster wider: Relativ häufig tritt das Phänomen
auf, dass alle Seiten bis auf die jeweilige Index-Seite einer Site
einen PR0 aufweisen, wobei die Index-Seite oft einen Toolbar-PageRank
von 2 bis 4 hat. Es drängt sich damit die Vermutung auf, dass
diese spezielle Form des PR0 nicht darauf beruht, dass die entsprechende
Website von einem der Spam-Filter identifiziert wurde, sondern dass
sie ihre Bestrafung aufgrund eines "linking to bad neighborhoods"
erhalten hat. Ferner wäre es natürlich auch möglich,
dass diese Form des PR0 darin begründet ist, dass lediglich
hierarchisch nachgeordnete Bereiche einer Website von einem Spam-Filter
erfasst wurden.
Die Kombination von PageRank
und BadRank zum PR0:
Wenn wir davon ausgehen, dass ein BadRank in der
hier präsentierten Form existiert, stellt sich nun die Frage,
in welcher Form BadRank und PageRank kombiniert werden können,
um einerseits möglichst viele Spammer aus den Suchergebnissen
zu eliminieren und andererseits möglichst wenige unschuldige
Seitenbetreiber ungerechtfertigterweise zu bestrafen.
Rein intuitiv bietet sich eine Verwendung der BadRank-Werte
im Rahmen der eigentlichen PageRank-Berechnung an. So könnte
beispielsweise im Zuge der iterativen Berechnung der PageRank
einer Seite direkt durch ihren BadRank dividiert werden. Dies hätte
den Vorteil, dass eine Seite mit hohem BadRank auch keinen bzw.
nur einen minimalen PageRank weitergeben kann. Schließlich
kann man argumentieren, dass wenn eine Seite auf eine suspekte Seite
verlinkt, die anderen Seiten, auf die sie verlinkt, ebenfalls suspekt
sind. Eine direkte Verbindung birgt allerdings große Gefahren.
So sind beispielsweise die Auswirkungen auf den PageRank in
keinster Weise vorab einzuschätzen. Insbesondere ist zu beachten,
dass eine Seite, der die Möglichkeit genommen wird PageRank
weiterzugeben, zu einem Dangling Link wird. Wie jedoch im Abschnitt
zu den ausgehenden Links erörtert wurde, ist es unbedingt erforderlich,
Dangling Links im Rahmen der PageRank-Berechnung zu vermeiden.
Es ist also sinnvoll, PageRank und BadRank
getrennt voneinander zu berechnen. Die anschließende Kombination
der beiden kann dabei auf einfachen arithmetischen Berechnungen
beruhen. Eine Subtraktion hätte die grundsätzlich wünschenswerte
Folge, dass relativ geringe BadRank-Werte bei relativ hohen PageRank-Werten
kaum Einfluss hätten. Allerdings wäre es mit der Subtraktion
problematisch, tatsächlich einen PR0 für viele Seiten
zu erreichen. Es würde vielmehr eine breite Abstufung in niedrige
PageRank-Regionen stattfinden. Mit der Division von PageRank
durch BadRank wäre ein PR0 leicht zu erreichen. Dies würde
jedoch implizieren, dass der BadRank eine extrem große Bedeutung
erhält. Vor allem jedoch ist ein sehr großer Teil der
BadRank kleiner als 1, da auch der Durchschnitt des BadRanks 1 ist,
womit eine Normalisierung erforderlich wäre. Eine Normalisierung
und Skalierung des BadRanks auf Werte zwischen 0 und 1, so dass
"gute" Seiten Werte nahe 1 und "schlechte" Seiten Werte nahe 0 aufweisen,
und eine anschließende Multiplikation dieser Werte mit dem
PageRank einer Seite dürfte hier die besten Ergebnisse
liefern.
Womöglich am effektivsten und am einfachsten
zu realisieren wäre jedoch eine schlichte, abgestufte Beurteilung
von PageRank und BadRank. Denkbar ist, dass sofern der BadRank
einen bestimmten Wert überschreitet, es stets zum PR0 kommt.
Gleiches gilt, wenn die Relation aus PageRank zu BadRank einen
bestimmten Wert unterschreitet. Daneben ist es sinnvoll, dass wenn
der BadRank und/oder die Relation aus BadRank zu PageRank
unter einem bestimmten Wert liegen, der BadRank keinen Einfluss
nimmt. Nur wenn keiner dieser Fälle eintritt, wäre eine
tatsächliche Kombination von PageRank und BadRank, etwa
durch Division von PageRank durch BadRank, erforderlich. Auf
diese Weise sollten alle unerwünschten Effekte vermieden werden
können.
Kritische Beurteilung von BadRank
und PR0:
Wie die Kombination von PageRank und BadRank
tatsächlich erfolgt, ist eher von nachrangiger Bedeutung. Eine
getrennte Berechnung und anschließende Kombination von beiden
hat allerdings zur Folge, dass man gegebenenfalls nicht am Toolbar
PageRank messen kann, wie hoch tatsächlich der BadRank
einer Seite ist. Denn falls eine Seite einen hohen PageRank
im ursprünglichen Sinne hat, muss der Einfluss des BadRank
nicht unbedingt ersichtlich sein. Verlinkt eine andere Seite darauf,
kann dies jedoch durchaus gravierende Folgen haben.
Die weitaus größere Problematik liegt
in der hier präsentierten, direkten Umkehrung des PageRank-Algorithmus:
Genauso, wie ein zusätzlicher eingehender Link einer Seite
deren PageRank immer nur erhöhen kann, kann ein zusätzlicher
ausgehender Link einer Seite auch deren BadRank immer nur erhöhen.
Dies liegt darin begründet, dass im Rahmen der BadRank-Berechnung
sich die übertragenen Werte einfach aufaddieren. Somit ist
es vollkommen gleich, auf wie viele untadelige Sites eine Seite
verlinkt - ein einziger Link auf eine Spam-Site kann gegebenenfalls
ausreichen, um zu einem PR0 zu führen.
Diese Problematik stellt sich allerdings wohl nur
in Ausnahmefällen. Da sich schließlich bei einer direkten
Umkehrung des PageRank-Algorithmus der BadRank einer Seite
unter deren eingehenden Links aufteilt, wird bei einzelnen Links
auf Seiten mit hohem BadRank immer nur jeweils ein Bruchteil des
BadRank übertragen. Google's Matt Cutts sagt hierzu: "If someone
accidentally does a link to a bad site, that may not hurt them,
but if they do twenty, that's a problem." (Quelle)
Solange jedoch alle Links im Rahmen des BadRank
gleichermaßen gewertet werden, besteht dennoch auch bei einzelnen
Links ein Problem. Haben schließlich zwei Seiten einen sehr
unterschiedlich hohen PageRank und verlinken auf die gleiche
Seite mit hohem BadRank, kann es nach Art und Weise der Kombination
von PageRank und BadRank dazu kommen, dass die Seite mit dem
höheren PageRank weit weniger unter dem auf sie übertragenen
BadRank leidet als diejenige Seite mit dem niedrigeren PageRank.
Wir können allerdings zuversichtlich sein, dass Google mit
derartigen Problemen umzugehen weiß. Nichtsdestotrotz soll
nochmals angemerkt werden, dass ausgehende Links im Rahmen der hier
beschriebenen Verfahren immer nur schaden können.
Dass die hier vorgestellten Verfahren tatsächlich
auch dieser Form eingesetzt werden, ist natürlich reine Spekulation.
Grundsätzlich sollte jedoch die Bewertung von Linkstrukturen
in Analogie zum PageRank-Verfahren genau die Art und Weise
sein, wie nur Google mit Spam umzugehen versteht.
|