Moin!
Ich lerne zur Zeit für InfRet und da ist eine Frage bei mir aufgetaucht.
Und zwar geht es um die idf Gewichtung. Ich habe das so verstanden, dass man die Suchbegriffe außer nach Häufigkeit des Vorkommens in den Dokumenten auch danach gewichtet, wie selten sie insgesamt sind, also ein höheres Gewich je weniger Dokumente der Sammlung sie enthalten. Dazu teilt man die Anzahl Dokumente insgesamt durch die Anzahl derer, in denen der Bergiff vorkommt, und nimmt dann den Logarithmus.
Jetzt ist es aber bei der ersten Aufgabe von Übungsblatt 3 so, dass "cookies" in den beiden vorhandenen Dokumenten vorkommt. Das gleiche haben wir in der ersten Aufgabe vom midterm test mit "eclipse". In den Fällen wäre idf also log(1) = 0. Bei Wikipedia steht, dass man vor dem Logarithmieren eins addiert. In den Folien zur Vorlesung ist das aber in den Formeln ohne die Addition von eins angegeben (obwohl das Konzept der Addition von eins zur Vermeidung "blöder" Eregbnisse ja bei der term frequency zum Beispiel vorkommt).
Kann mir jemand sagen, ob ich da irgendwas übersehe oder falsch verstehe? Bzw. ob das entweder in den Folien unvollständig ist und ich immer vor dem logarithmieren eins draufzählen sollte, oder es ist absicht so und bei den Aufgaben hab ich dann für "cookies" und "eclipse" ne idf von 0 und damit werden die Begriffe für die Anfragen insgesamt ignoriert?
Vielen Dank schon einmal im Voraus für erleuchtende Antworten!