Information Retrieval - Inverse Document Frequency - Ausgewählte Gebiete der Informatik (AGI) - Fachrat Informatik

JanD

Trainee

Posts: 80

Date of registration: Dec 12th 2006

Location: Hannover

1

Thursday, March 7th 2013, 7:28pm

Information Retrieval - Inverse Document Frequency

Moin!
Ich lerne zur Zeit für InfRet und da ist eine Frage bei mir aufgetaucht.
Und zwar geht es um die idf Gewichtung. Ich habe das so verstanden, dass man die Suchbegriffe außer nach Häufigkeit des Vorkommens in den Dokumenten auch danach gewichtet, wie selten sie insgesamt sind, also ein höheres Gewich je weniger Dokumente der Sammlung sie enthalten. Dazu teilt man die Anzahl Dokumente insgesamt durch die Anzahl derer, in denen der Bergiff vorkommt, und nimmt dann den Logarithmus.

Jetzt ist es aber bei der ersten Aufgabe von Übungsblatt 3 so, dass "cookies" in den beiden vorhandenen Dokumenten vorkommt. Das gleiche haben wir in der ersten Aufgabe vom midterm test mit "eclipse". In den Fällen wäre idf also log(1) = 0. Bei Wikipedia steht, dass man vor dem Logarithmieren eins addiert. In den Folien zur Vorlesung ist das aber in den Formeln ohne die Addition von eins angegeben (obwohl das Konzept der Addition von eins zur Vermeidung "blöder" Eregbnisse ja bei der term frequency zum Beispiel vorkommt).

Kann mir jemand sagen, ob ich da irgendwas übersehe oder falsch verstehe? Bzw. ob das entweder in den Folien unvollständig ist und ich immer vor dem logarithmieren eins draufzählen sollte, oder es ist absicht so und bei den Aufgaben hab ich dann für "cookies" und "eclipse" ne idf von 0 und damit werden die Begriffe für die Anfragen insgesamt ignoriert?
Vielen Dank schon einmal im Voraus für erleuchtende Antworten!

Go to the top of the page

SIMPSON

Toni

Posts: 88

Date of registration: Oct 15th 2010

Location: Hannover

2

Thursday, March 7th 2013, 10:29pm

Ich habe eben einen Blick in die Vorlesungsfolien geworfen. Da steht tatsächlich idf=log(n/df); dann würde ich es letztendlich auch so in der Klausur machen. In "algorithms for internet applications" wird es dann übrigens wieder als idf=log(n/(dfi+1)) gelehrt.

Go to the top of the page

JanD

Trainee

Posts: 80

Date of registration: Dec 12th 2006

Location: Hannover

3

Sunday, March 10th 2013, 11:58pm

Hat jetzt nicht direkt was mit idf zu tun, aber wollte nicht extra ein neues Thema eröffnen:

In der Terminliste vom Prüfungsamt steht für die Klausur morgen 08:30, auf der Institutshomepage 09:30.
Ich nehme an, da auf der Terminliste steht, dass sich das noch verschieben kann, gilt die Zeit auf der Seite vom Institut für Verteilte Systeme?

Go to the top of the page

Fachrat Informatik - Forum

Information Retrieval - Inverse Document Frequency