Die Implementierung des PageRank:
Für die Implementierung des PageRank
ist von zentraler Bedeutung, auf welche Art und Weise der PageRank
in die generelle Bewertung von Webseiten durch die Suchmaschine
Google einfließt. Das Verfahren wurde von Lawrence Page
und Sergey Brin mehrfach in ihren Veröffentlichungen beschrieben.
Ursprünglich basierte die Seitenbewertung durch Google
auf drei Faktoren:
- Seitenspezifische Faktoren
- Ankertext eingehender Links
- PageRank
Zu den seitenspezifischen Faktoren zählen
neben den konkreten Textinhalten etwa auch der Inhalt des Title-Tags
und die URL einer Seite. Es ist mehr als wahrscheinlich, dass seit
der Veröffentlichung dieser Punkte weitere Faktoren hinzugekommen
sind. Dies soll an dieser Stelle jedoch nicht interessieren.
Bei Suchanfragen wird aus den seitenspezifischen
Faktoren und den Ankertexten eingehender Links für den Suchbegriff
eine nach Position und Grad der Hervorhebung gewichteter IR-Wert
berechnet. Die Bewertung für die Relevanz einer Webseite für
eine konkrete Suchanfrage wird nun mit dem PageRank als Indikator
für die ganz allgemeine Bedeutsamkeit der Webseite kombiniert.
Dieses Kombinieren erfolgt in multiplikativer Form. Dass hier kein
additives Verfahren eingesetzt wird ist unmittelbar einleuchtend,
da ansonsten Seiten mit einem sehr hohen PageRank auch auf
Suchanfragen hin gefunden werden könnten, obwohl sie in keinerlei
Zusammenhang zum gesuchten Begriff stehen.
Insbesondere bei aus mehreren Begriffen bestehenden
Suchanfragen zeigt sich ein deutlich größerer Einfluss
der inhaltsspezifischen Bewertungskomponenten. Der Einfluss des
PageRank hingegen wird eher bei unspezifischen, aus lediglich
einem Suchbegriff bestehenden Anfragen deutlich. Gerade für
Mehr-Begriffs-Anfragen ist es möglich, mit den klassischen
Mitteln der Suchmaschinen-Optimierung Listungen vor Seiten zu erlangen,
die einen weitaus höheren PageRank-Wert inne haben.
Bei der Optimierung für Suchbegriffe, für
die in den Suchmaschinen ein großer Wettbewerb herrscht, ist
ein hoher PageRank-Wert unerlässlich für eine hohe
Suchmaschinen-Position, selbst wenn die Seite selbst den klassischen
Kriterien der Suchmaschinen-Optimierung folgt. Dies liegt darin
begründet, dass die Wertung des zusätzlichen Vorkommens
eines Suchbegriffs innerhalb eines Dokuments sowie in den Ankertexten
von eingehenden Links mit der Häufigkeit des Vorkommens abnimmt,
um Spam durch oftmalige Keyword-Wiederholungen zu vermeiden. Damit
sind die Möglichkeiten zur Seitenoptimierung im klassischen
Sinne beschränkt, und bei hohem Wettbewerb in Suchmaschinen
für einen Suchbegriff wird der PageRank zum ausschlaggenden
Faktor.
Die PageRank Anzeige der Google
Toolbar:
Einen großen Bekanntheitsgrad erlangte der
PageRank durch seine Anzeige in der Google Toolbar.
Die Google Toolbar ist ein Browser-Plug-In für den Microsoft
Internet Explorer, das von der Google Website herunter geladen
werden kann und zahlreiche Erleichterungen für die Google-Suche
bereithält.
Die
Google Toolbar zeigt den PageRank einer Seite auf einer
Skala von 0 bis 10 an. Zunächst ist der PageRank an der
Breite des grünen Balkens in der Anzeige ersichtlich. Fährt
der Benutzer mit der Maus über die Anzeige, gibt die Toolbar
darüberhinaus den Wert des Toolbar-PageRank an.
Vorsicht: Die PageRank-Anzeige zählt zu den "Advanced
Features" der Google Toolbar. Sobald diese "Advanced Features"
aktiviert sind, sammelt Google über die Toolbar Daten
über das Benutzerverhalten. Außerdem führt die Toolbar
selbstständig Updates durch, ohne dass der Benutzer über
das Herunterladen der neuen Version informiert wird. Dies bedeutet
letztlich, dass Google Zugriff auf die Festplatte des Benutzers
hat.
Der tatsächliche PageRank, der für
eine Seite theoretisch maximal einen Wert von dN+(1-d) annehmen
kann, wobei N die Anzahl aller Seiten des Webs ist und d üblicherweise
auf 0.85 gesetzt wird, muss für die Anzeige in der Google
Toolbar skaliert werden. Es wird im Allgemeinen davon ausgegangen,
dass die Skalierung nicht linear sondern logarithmisch erfolgt.
Bei einem Dämpfungsfaktor von 0.85 und einem damit verbundenen
minimalen PageRank von 0.15 sowie einer angenommenen logarithmischen
Basis von 6 ergäbe sich das folgende Bild für die Skalierung:
| Toolbar-PageRank |
Tatsächlicher PageRank |
|
0/10
|
0.15
|
-
|
0.9 |
|
1/10
|
0.9
|
-
|
5.4 |
|
2/10
|
5.4
|
-
|
32.4 |
|
3/10
|
32.4
|
-
|
194.4 |
|
4/10
|
194.4
|
-
|
1,166.4 |
|
5/10
|
1,166.4
|
-
|
6,998.4 |
|
6/10
|
6,998.4
|
-
|
41,990.4 |
|
7/10
|
41,990.4
|
-
|
251,942.4 |
|
8/10
|
251,942.4
|
-
|
1,511,654.4 |
|
9/10
|
1,511,654.4
|
-
|
9,069,926.4 |
|
10/10
|
9,069,926.4
|
-
|
0.85 × N + 0.15 |
Ob tatsächlich eine mathematisch strikte logarithmische
Skalierung erfolgt ist natürlich ungewiss. Wahrscheinlich erfolgt
eine manuelle Skalierung, die einem logarithmischen Schema folgt,
damit Google die volle Kontrolle darüber behält,
wie viele Seiten einen bestimmten Toolbar-PageRank inne haben.
Diesem Schema dürfte allerdings eine logarithmische Basis von
6 bis 7 zu Grunde liegen, was sich etwa ansatzweise aus der Anzahl
der von Google angezeigten eingehenden Links mit einem Toolbar-PageRank
größer 4 für Seiten mit einem sehr hohen Toolbar-Pagerank
herleiten lässt.
Die Datenkommunikation der Toolbar:
Auch Webmaster, die aufgrund von Sicherheitsbedenken
die Google Toolbar oder auch den Internet Explorer nicht dauerhaft
nutzen möchten, haben eine Möglichkeit zum Einblick in
die PageRank-Werte ihrer Seiten. Google übermittelt
den PageRank in einfachen Textdateien an die Toolbar. Früher
geschah dies per XML. Der Wechsel zu Textdateien fand im August
2002 statt.
Die PageRank-Textdateien können direkt
von der Domain www.google.com abgerufen werden. In ihrer Grundform
sehen die URLs der Dateien folgendermaßen aus (ohne Zeilenumbrüche):
http://www.google.com/search? client=navclient-auto&
ch=0123456789& features=Rank& q=info:http://www.domain.com/
Die PageRank-Dateien bestehen aus einer Zeile.
Der PageRank-Wert ist die letzte Ziffer in dieser Zeile.
Die oben in der URL dargestellten Parameter sind
unerlässlich für die Anzeige der PageRank-Dateien
im Browser. So identifiziert sich mit dem Wert "navclient-auto"
für den Parameter "client" die Toolbar; mit dem Parameter "q"
wird die abgefragte URL übermittelt. Der Wert "Rank" für
den Parameter "features" legt fest, dass die PageRank-Dateien
abgerufen werden. Wird dieser Parameter weggelassen, werden auch
weiterhin XML-Dateien übermittelt. Der Parameter "ch" wiederum
übergibt eine Prüfsumme für die URL, wobei sich diese
Prüfsumme im Zeitablauf für einzelne URLs lediglich bei
Updates der Toolbar ändern kann.
Um die Prüfsummen einzelner URLs herauszufinden
ist es damit erforderlich, die Toolbar zumindest einmal zu installieren.
Hierbei wird dann vielerorts der Einsatz von Packet Sniffern, lokalen
Proxies und ähnlichem empfohlen, um die Kommunikation zwischen
Toolbar und Google aufzuzeichnen. Dies ist allerdings nicht
zwingend erforderlich, da die PageRank-Dateien vom Internet
Explorer gecached werden und somit die Prüfsummen im Ordner
Temporary Internet Files eingesehen werden können. Die PageRank-Dateien
können hiermit dann auch z.B. in anderen Browsern als dem Internet
Explorer angezeigt werden, ohne dass Googles 36-Jahres-Cookies akzeptiert
werden müssen.
Da die PageRank-Dateien im Browser-Cache
gespeichert werden und somit offen einsehbar sind, und sofern eine
Abfrage nicht automatisiert erfolgt, sollte dies keine Verletzung
von Googles Dienstleistungsbedingungen darstellen. Es ist allerdings
Vorsicht geboten. Die Toolbar übermittelt einen eigenen User-Agent
an Google. Es ist:
Mozilla/4.0 (compatible; GoogleToolbar
1.1.60-deleon; OS SE 4.10)
Hierbei ist 1.1.60-deleon eine Toolbar-Version,
die sich natürlich ändern kann, und OS das Betriebssystem
des jeweils eingesetzten Rechners. Google kann also nachprüfen,
ob eine direkte Anfrage über den Browser erfolgt, sofern kein
Proxy zwischengeschaltet und der User-Agent entsprechend modifiziert
wird.
Beim Blick in den Cache des IE wird man in der
Regel feststellen, dass die PageRank-Dateien nicht von der
Domain www.google.com, sondern von IPs wie z.B. 216.239.33.102 abgerufen
werden. Ebenso enthalten die URLs häufig einen weiteren Parameter
"failedip" mit Werten wie z.B. "216.239.35.102;1111". Die IPs sind
jeweils einem der derzeit sieben sich im Einsatz befindlichen Rechenzentren
Googles zugeordnet. Wozu der Parameter "failedip" tatsächlich
genutzt wird, ist unklar. Hintergrund der unmittelbaren Abfrage
der PageRank-Dateien bei einzelnen IPs ist wohl der Versuch,
die PageRank-Anzeige insbesondere in den Zeiten des "Google
Dance" besser zu steuern.
Die PageRank Anzeige der Google
Directory:
Denjenigen, denen der Abruf der PageRank-Dateien
zu kompliziert ist, bleibt schließlich mit der Google Directory
(directory.google.com) noch eine eingeschränkte Möglichkeit,
etwas über den PageRank ihrer Site zu erfahren.
Bei
der Google Directory handelt es sich um einen Dump des Open Directory
Projects (dmoz.org), der neben den Seiteneinträgen ähnlich
der Google Toolbar den skalierten PageRank für
die in das ODP eingetragene Seite in Balkenform anzeigt.
Allerdings erfolgt die PageRank-Anzeige in der Google-Directory
auf einer Skala von 1 bis 7. Der exakte Wert wird nicht angezeigt,
kann aber über die zweigeteilte Balkengrafik bzw. die Breite
von deren Einzelgrafiken bestimmt werden, falls der Betrachter sich
beim einfachen Augenschein unsicher ist.
Durch den Vergleich des Toolbar-PageRanks mit dem
Directory-PageRank kann vom tatsächlichem PageRank von Seiten,
die in das ODP eingetragen sind, ein etwas genauerer Eindruck gewonnen
werden. Dieser Zusammenhang wurde zuerst von Chris Raimondi aufgezeigt.

In
Anlehnung an Chris Raimondi
Insbesondere für Seiten mit einem Toolbar-PageRank
von 5 oder 6 ergibt sich hier die Möglichkeit der Einschätzung,
ob sich die Seite eher am unteren oder am oberen Ende eines Bereichs
der Toolbar-Skalierung befindet. Es sei an dieser Stelle angemerkt,
dass für die Darstellung des Vergleichs der beiden PageRank-Anzeigen
der Toolbar-PageRank von 0 nicht berücksichtigt wurde.
Dass dies sinnvoll ist, kann anhand von Seiten mit einem Directory-PageRank
von 3 nachvollzogen werden. Hier ist allerdings zu berücksichtigen,
dass zur Überprüfung eine Seite der Google Directory
mit einem Toolbar-PageRank von maximal 4 ausgewählt werden
sollte, da sich sonst in der Regel keine von dort verlinkten Seiten
mit einem Toolbar-PageRank von 3 finden lassen.
|