Überblick über das PageRank-Verfahren
von Google:
Im Verlauf der letzten Jahre hat sich Google
weltweit zur bedeutendsten Suchmaschine entwickelt. Maßgebend
verantworlich hierfür war neben einer hohen Performance und
einer großen Benutzerfreundlichkeit vor allem die anderen
Suchmaschinen teilweise weit überlegene Qualität der Suchergebnisse.
Diese Qualität der Suchergebnisse beruht ganz wesentlich auf
dem PageRank-Verfahren.
An dieser Stelle soll ein möglichst breiter Überblick
über alle Aspekte des PageRank-Verfahrens wiedergegeben
werden. Unser Überblick stützt sich dabei im Kern auf
Veröffentlichungen der Google-Gründer Lawrence Page
und Sergey Brin aus ihrer Zeit als Graduiertenstudenten an der Stanford
University.
Vielerorts wird angeführt, dass seit den Forschungsarbeiten
am PageRank-Verfahren vor allem angesichts der Dynamik des
Internets zu viel Zeit vergangen ist, als dass die veröffentlichten
Dokumente immer noch für die Bewertungsmethodik der Suchmaschine
Google maßgebend sind. Es soll auch nicht bezweifelt
werden, dass im Verlauf der letzten Jahre mit großer Wahrscheinlichkeit
zahlreiche Änderungen, Anpassungen und Modifikationen am ursprünglichen
PageRank-Algorithmus stattgefunden haben. Allerdings war gerade
das PageRank-Verfahren ein wichtiger Faktor für den Erfolg
der Suchmaschine Google, womit zumindest das Konzept des PageRank-Verfahrens
immer noch grundlegend sein sollte.
Das PageRank-Konzept:
Im Zuge der Entwicklung des World Wide Webs wurden verschiedene
Verfahren zur Bewertung von Webseiten mit dem Ziel der Relevanzbeurteilung
durch Suchmaschinen entwickelt. Ein aus unmittelbar einleuchtenden
Gründen auch heute immer noch von praktisch allen Suchmaschinen
genutzter Maßstab ist das Vorkommen eines Suchbegriffs in
den Inhalten einer Webseite. Dieses Vorkommen wird nach den verschiedensten
Kriterien wie etwa der relativen Häufigkeit des Vorkommens
(der sog. Keyword-Dichte), den Stellen des Vorkommens des Suchbegriffs
oder auch der Exponiertheit des Suchbegriffs im Dokument gewichtet.
Aus der Absicht, Suchmaschinen resistent gegen Webseiten zu machen,
die auf der Basis von Analysen der inhaltsspezifischen Bewertungskriterien
generiert wurden (Doorway Pages), entstand das Konzept der Link-Popularität.
Dabei fließt die Anzahl der eingehenden Links für ein
Dokument als ein grundsätzliches Kriterium für die Bedeutung
einer Webseite in die Relevanzbeurteilung ein. Diesem Ansatz liegt
zu Grunde, dass ein Dokument um so wichtiger ist, je häufiger
es von anderen verlinkt wird. Hierdurch wird weitestgehend verhindert,
dass automatisch generierte "suchmaschinenoptimierte"
Webseiten ohne jeglich Einbindung in das WWW oben in den Suchmaschinenergebnissen
erscheinen. Es zeigte sich allerdings, dass auch das Konzept der
Link-Popularität schnell von Webmastern antizipiert werden
konnte, indem sie von ebenso unbedeutenden, automatisch generierten
Seiten eingehende Links für Doorway Pages schufen.
Im Gegensatz zum Konzept der Link-Popularität nutzt das PageRank-Konzept
nicht einfach die absolute Anzahl eingehender Links für die
Beurteilung der Bedeutung einer Webseite. Die Argumentation der
Google-Gründer gegen das Konzept der einfachen Link-Popularität
war, dass ein Dokument zwar bedeutsam ist, wenn es von vielen anderen
verlinkt wird, nicht jedes verlinkende Dokument ist jedoch gleichwertig.
Vielmehr sollte einem Dokument - völlig unabhängig von
seinen Inhalten - ein hoher Rang zugewiesen werden, wenn es von
anderen bedeutenden Dokumenten verlinkt wird.
Die Bedeutsamkeit eines Dokuments bestimmt sich
im Rahmen des PageRank-Konzepts also aus der Bedeutsamkeit
der darauf verlinkenden Dokumente. Deren Rang wiederum bestimmt
sich ebenfalls aus dem Rang verlinkender Dokumente. Die Bedeutsamkeit
eines Dokuments definiert sich stets rekursiv aus der Bedeutsamkeit
anderer Dokumente. Da - wenn auch über viele hintereinanderfolgende
Links hinweg - der Rang eines jeden Dokuments eine Auswirkung auf
den Rang eines jeden anderen hat, beruht das PageRank-Konzept letztlich
auf der Linkstruktur des gesamten Webs. Obwohl diese ganzheitliche
Betrachtung des WWW es nicht vermuten lässt, gelang es Page
und Brin das PageRank-Konzept mittels eines relativ trivialen
Algorithmus umzusetzen.
|