Monthly Archives: Mai 2019

TF*IDF: Das Comeback der Keyworddichte? (Teil 1)

TF*IDF ist eine Methode im SEO-Segment, welche es schafft die Wertung von Keywords nicht nur innerhalb eines Dokuments, sondern auch innerhalb der Gesamtheit der suchmaschinenrelevanten Dokumente zu ermöglichen. Tests haben gezeigt, dass sich durch die konsequente Nutzung von TF*IDF bei der Content-Generierung und -Überarbeitung, deutliche Verbesserungen im Ranking erzielen lassen. Durch die Nutzung spezialisierter Tools lässt sich somit effektiv die Erstellung von Content hinsichtlich der OnPage-Optimierung erleichtern.

TF*IDF: Woher kommt’s?

Zu Beginn der Geschichte der Suchmaschinen waren diese in ihren Funktionen noch äußerst eingeschränkt. In der Regel bewerteten die Suchmaschinen nur nach Keywords und deren Häufigkeit auf den Seiten. Dementsprechend begann auch kurz darauf das Zeitalter des Keyword-Stuffings. Eine oftmals sinnfreie Anzahl an Keywörtern wurde in hoher Dichte auf die Seiten gepackt, um deren Sichtbarkeit in den Suchergebnissen zu verbessern. Doch diese Praxis ging nur für einen bestimmten Zeitraum gut. Denn auch die Such-Algorithmen entwickelten sich weiter und straften kurz darauf diese Form des Keyword-Stuffings ab.

Um den Content einer Webseite für das Ranking zu beurteilen, gingen die Suchmaschinen immer neue Wege und nahmen immer mehr weiche Faktoren in die Suchergebnisse auf. Dementsprechend galt es, eine passende Formel zu finden, um SEO Maßnahmen effektiver werden zu lassen. Hier hat sich die Formel TF*IDF oder WDF*IDF schnell einen Namen gemacht. Denn mit dieser konnten SEO Experten effektiv den Nutzen einer Seite für die Suchmaschinen bewerten. Dabei spielt vor allem die in Relation zu dem Keyword-Vorkommen in allen vorhandenen Suchdokumenten eine wichtige Rolle. Vor allem der thematische und semantische Kontext konnte mit diesem Verfahren berücksichtigt werden. Dementsprechend scheint es so, dass auch das Zählen der Keywords wieder attraktiver wird. Doch um dies zu verstehen, sollten wir zunächst einmal betrachten, was TF*IDF überhaupt ist.

Was ist TF*IDF?

Der Begriff TF*IDF lässt sich auf eine recht einfache Formel herunter brechen. Hierzu gilt es erst einmal die Kürzel zu übersetzen. TF steht für die Term frequency, also für die Worthäufigkeit in Relation zur gesamten Wortanzahl eines Dokuments.

IDF steht für die Inverse Document Frequency  steht für die Anzahl an Dokumenten, welche das Keyword enthalten. Dabei werden alle von den Suchmaschinen erfassten Dokumente berücksichtigt. Es wird somit das Vorkommen eines bestimmten Keywords und der zugehörigen Terme auf der Seite, in direktes Verhältnis zu allen anderen Seiten gestellt, welche ebenfalls zu diesem Keyword ranken. Im Zentrum der Analyse steht somit nicht mehr die reine Anzahl an Keywords, sondern der gesamte Textinhalt in Relation zu allen anderen Seiten mit gleichem Keywordbezug.

Knapp formuliert kann auch gesagt werden: Ein Keyword, welches im Internet selten auftaucht, im Dokument aber häufig, besitzt eine höhere Relevanz für die Suchmaschinen, als ein Keyword, welches im Internet häufig zu finden ist, aber selten im Dokument auftaucht. Vorkommen auf der Seite und Vorkommen auf allen Seiten im Ranking stehen somit in direkter Relation.

 

Die Formel lautet:

WDF(i) = log2(Freq(i,j)+1= / log28L)

und IDFt = log( 1+ Nd/ft)

 

i=:Keyword

j=:Dokumentenseite

L=:Gesamtzahl der Wörter in Dokumentseite j

Freq(i,j)=:Häufigkeit des Wortes i in Dokumentenseite j

Nd: Anzahl der verfügbaren Dokumente

ft: Anzahl der Dokumente, welche das Keyword enthalten

 

Allerdings ist es nicht notwendig, diese Formeln auswendig zu lernen, wie wir in einem späteren Teil dieses Artikels noch genauer betrachten werden.