WDF IDF berechnen - so gehts

Was steckt hinter der geheimnisvollen Formel die Karl Kratz bekannt gemacht hat?

Die WDF IDF Formel stammt aus dem Information Retrieval. Eine Wissenschaft die sich schon seit Jahren mit dem besseren Auffinden von Dokumenten beschäftigt.

Wichtig ist es am Anfang einige Begriffe zu klären:

1. Termfrequenz

Ein Term ist eine Umschreibung für alles was eine Bedeutung trägt. Terme werden meistens in der Mathematik verwendet und ganz ohne Mathe kommen wir bei unser OnPage Optimierung nicht aus.
Die Termfrequenz ist die Anzahl des definierten Terms.

2. Keyword-Dichte (keyword density)

Diese Meßgröße beschreibt das prozentuale Verhältnis zwischen Vorkommen des Keywords in Verbindung mit der Gesamtanzahl der Wörter in einem Dokument.

Bis vor wenigen Wochen war es für einen Suchmaschinenoptimierer ganz normal auf Keyword-Dichte zu optimieren. Hier wurde oft ein Wert von 5% als Zielgröße festgelegt und um die Keyword der Text "herumgeschrieben".

Karl hat schon längerer Zeit auf seinem Blog berichtet, dass die Keyworddichte für die Optimierung nicht wirklich wichtig ist.  Wir haben im OnPage-Tool diese Größe noch aufgeführt, da wir sie mit den Top10 Ergebnissen der Suchmaschinen vergleichen.

Der Link zu Karls Artikel: http://www.karlkratz.de/onlinemarketing-blog/seo-keyword-density/

Jetzt gibt es noch die WDF. Damit ist die Within-Document-Frequency gemeint. Das bedeutet: Ähnlich wie die Keyword-Dicht errechnet die WDF auch das Verhältnis von Keywords zur Wortanzahl im Text. Nur wird dieser logarithmiert. So dass eine Häufung der Keywords zu einem geringeren Ansteigen der WDF führt.

Beispiel:

Unser Text hat 1000 Wörter. Unser Keyword "OnPage Optimierung" kommt 10x drin vor. Das ergbit eine Keyword-Dichte von 10%.

Wenn wir jetzt den WDF berechnen ergibt das WDF = log2(10) / log2(1000) = 0,33.

Angenommen der Keyword wäre jetzt 20x vorhanden, dann wäre der WDF = log2(20) / log2(1000) = 0,43

Die Steigerung fällt also gedämpfter aus als mit der klasischen Keyworddichte.

Ziel ist für unser Tool jetzt für jeden Term die WDF auszurechnen und in einer Tabelle zur Verfügung zu stellen.

IDF - Inverse Document Frequency

Diese Größe gibt das Verhältnis von Dokumenten in dem das Keyword vorhanden ist zu der Gesamtanzahl aller Dokumente in einer Datenbank an. Beispiel:

Wenn eure Datenbank 100.000 Dokumente groß ist und in 1000 Dokumenten das Keyword auftaucht, dann wäre die IDF = log ( 100000 / 1000) = 2

Die Krönung des Ganzen wird jetzt eine Multiplikation von WDF und IDF. Somit erhalten wir für jedes Term einen Gewichtungsfaktor und können genauer bestimmen welches das relevante Dokument innerhalb unserer Datenbank ist.

Hier noch ein paar Links zu guten Artikeln zu diesem Thema:

http://www.webmarketingblog.at/2012/10/30/ranking-ohne-linkbuilding/

http://www.seo-book.de/onpage/was-wdfpidf-bedeutet-und-warum-das-wichtig-ist

http://www.doku.info/doku_article_458.html

http://wwwthemathchannel-shazdehmath.blogspot.de/2012/08/problem-der-keyworddichte-keyworddichte.html