You are not logged in.

kousai

Praktikant

  • "kousai" started this thread

Posts: 22

Date of registration: Sep 22nd 2009

1

Saturday, February 5th 2011, 3:17pm

Technologien für das Internet I (Ein Paar Fragen)

Hallo

Ich hab ein Paar Fragen bzgl. erste und zweite Vorlesungen von TfdI, ich bin richtig durcheinander gekommen und brauche eure Hilfe

  • was ist der Unterschied zwi. Term und Token??
  • was versteht man unter Normalization und was ist Ziel davon ??

Eigentlich hab noch viele Fragen aber ich möchte zuerst versuchen selber hinzukriegen.

Danke im Voraus.

This post has been edited 1 times, last edit by "kousai" (Feb 5th 2011, 3:20pm)


2

Saturday, February 5th 2011, 3:46pm

-> http://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf
Definition Token&Term S.22
Normalization S.28

kousai

Praktikant

  • "kousai" started this thread

Posts: 22

Date of registration: Sep 22nd 2009

3

Saturday, February 5th 2011, 3:59pm

Danke für deine Schnelle Antwort, aber ich brauche eigentlich ein Beispiel von Term und Token

4

Saturday, February 5th 2011, 4:43pm

Bei deinem letzten Beitrag würde ein Tokenizer folgende Token rausziehen: Danke, für, deine, Schnelle, Antwort, aber, ich, brauche, eigentlich, ein, Beispiel, von, Term, und, Token;

Angenommen die Normalisierung würde die Token nur in Kleinschreibung bringen, dann wären die Terme (Äquivalenzklassen): danke, für, deine, schnelle, antwort, ...

Unterschiedliche Token wie bspw. dAnKe und Danke werden beide auf den Term 'danke' normalisiert. Gibt halt Sinn, um die Termliste (Dictionary) klein zu halten und da der geringfügige Verlust an Precision durch oft großen Gewinn an Recall ausgeglichen ist.

kousai

Praktikant

  • "kousai" started this thread

Posts: 22

Date of registration: Sep 22nd 2009

5

Saturday, February 5th 2011, 4:57pm

VieLen Dank füR dEine HilFe

vielen dank für deine hilfe :)

Posts: 69

Date of registration: Mar 22nd 2010

6

Sunday, February 6th 2011, 3:00pm

Permuterm index

Kann mir einer erklären wie das mit dem Permuterm Index läuft? Ich verstehe es im "Information Retrieval"-Buch nicht so ganz. Warum mache ich einen Term n*m zu m$n*? Welchen Vorteil hat das? Muss ich nicht sowieso jede Mögliche Permutation z.B. des Wortes "hello" durchgehen, um eine Wildcard query sinnvoll beantworten zu können?

Justus

Junior Schreiberling

  • "Justus" is male

Posts: 152

Date of registration: Oct 16th 2004

Occupation: ich will auch mal Käptain sein!

7

Sunday, February 6th 2011, 3:47pm

Damit du weiß wo das wort zu ende ist oder anfängt. Wenn du z.b. nach "an*" suchst willst du ja nur wörter die mit "an" anfangen und nicht welche die ein "an" irgendwo in sich haben. Bei "m*n" geht es darum, dass das wort mit n endet. Sonst könnte auch z.b. das wort "meenee" zurückgegeben werden.

Posts: 69

Date of registration: Mar 22nd 2010

8

Sunday, February 6th 2011, 4:26pm

Soweit so gut. Aber warum bringt mir das Abspeichern sämtlicher Permutationen was?

Justus

Junior Schreiberling

  • "Justus" is male

Posts: 152

Date of registration: Oct 16th 2004

Occupation: ich will auch mal Käptain sein!

9

Sunday, February 6th 2011, 6:16pm

Sucht man z.b nach "*ll*", dann kann "Hallo" nur gefunden werden wenn das wort llo$Ha gespeichert wurde. Ansonsten müsste man ja den gesamt Suchbaum durchgehen um alle Wörter die "ll" enthalten zu finden.

Ryoga`

Trainee

  • "Ryoga`" is male

Posts: 51

Date of registration: Oct 15th 2008

Location: Sarstedt

10

Monday, February 7th 2011, 12:19pm

Suchen jemanden, der uns die Übungsmitschriften bzw. Lösungen einscannen und zukommen lassen kann.

Würden das natürlich belohnen $_$

danke im voraus!

11

Monday, February 7th 2011, 4:00pm

Dieser Bitte schließe ich mich an. Das wäre wirklich super.

kousai

Praktikant

  • "kousai" started this thread

Posts: 22

Date of registration: Sep 22nd 2009

12

Tuesday, February 8th 2011, 3:08pm

Hallo

Kann jemand mir sagen was ist den Unterschied zw. interpolierte Precision und nicht interpolierte Precision ?

This post has been edited 1 times, last edit by "kousai" (Feb 8th 2011, 3:08pm)


Posts: 69

Date of registration: Mar 22nd 2010

13

Wednesday, February 9th 2011, 7:03pm

Hallo kousai und co

Leider nicht, welches Kapitel ist das?

Kann mir jemand hier mal in der untere Tabelle

http://nlp.stanford.edu/IR-book/html/htm…-vectors-1.html

sagen wie man unter document auf wf,d kommt? Die anderen Werte sind mir klar

Justus

Junior Schreiberling

  • "Justus" is male

Posts: 152

Date of registration: Oct 16th 2004

Occupation: ich will auch mal Käptain sein!

14

Wednesday, February 9th 2011, 9:09pm

Hat schon jemand die Klausur mit geschrieben? Was kommen für Fragen dran?

Posts: 69

Date of registration: Mar 22nd 2010

15

Thursday, February 10th 2011, 10:37am

Precisiion - Recall

Der Precision-Recall Graph hat normalerweise Zacken. Um diese wegzubekommen benutzt man interpolierte Precision.
Wie sich diese aber errechnet habe ich nicht verstanden. Was ist dieser recall level r und r'? Und was bedeutet
interpolierte Precision in der PRaxis?

Posts: 69

Date of registration: Mar 22nd 2010

16

Thursday, February 10th 2011, 10:44am

Ah, jetzt hab ichs.

Guck mal in das IR-Buch, Kapitel 8.3 Figure 8.2

Du guckst bei jedem Recal-Level r, ob es bei einen höheren Precision-Wert gibt für ein r' > r, wenn ja,
dann ist das dein neuer interpoloerte Precision-Wert. z.B. guckst du bei Recall = 0,2, dann liest du ab, dass
der zugehörige Precision-Wert etwa zwischen 0,5 und 0,6 liegt. Die Kurve schlägt danach aber nochmal nach
oben aus und das nächste Maximum ist etwa bei 0,63. Dieser Wert kannste in der Tabelle 8.1 bei r=0,2 nachlesen!

tina

Trainee

  • "tina" is female

Posts: 54

Date of registration: Nov 21st 2005

Location: Meiningen

17

Thursday, February 10th 2011, 11:58am

Interpolierte Precision

hi,

ich versuche es mal:

Und was bedeutet interpolierte Precision in der PRaxis?

da schreibt das gute Buch:
"The justification is that almost anyone would be prepared to look at a few more documents
if it would increase the percentage of the viewed set that were relevant (that is, if the precision of the larger set is higher)."

sprich: wenn es das Ergebnis verbessert, dann guckt man gerne ein paar mehr Dokumente an.

und wie man das ganze berechnet:

Interpolation: Take maximum of all future points

Vorgehen :
mal angenommen du hast schon 3 relevante Dokumente gefunden
  • berechne P und R der Top x Ergebnisse
  • interessant sind die Ergebnisse bei denen ein neues relevantes Dokument gefunden wird - also das 4., das 5. usw.
  • P-Werte vergleichen
  • den größten P-Wert nehmen - das ist dein interpolierte Precision


ich hoffe es ist einigermaßen verständlich.

tschüß
tina

18

Thursday, February 10th 2011, 12:48pm

Sind bei der Prüfung Hilfsmittel zugelassen? Falls ja, welche?

Posts: 69

Date of registration: Mar 22nd 2010

19

Thursday, February 10th 2011, 12:57pm

Ein NICHT programmierbarer Taschenrechner

http://www2.kbs.uni-hannover.de/120.html

Ryoga`

Trainee

  • "Ryoga`" is male

Posts: 51

Date of registration: Oct 15th 2008

Location: Sarstedt

20

Thursday, February 10th 2011, 1:44pm

Folgendes Problem. Übungsblatt 6 (Relevanz-Feedback)

Das |D_r| im Rocchio-Algo.. steht das für die Anzahl der relevanten Dokumente oder für die Anzahl aller Terme aus relevanten Dokumenten?
Bin mir nicht sicher ob ich für das |D_r| eine 2 oder 9 einsetzen muss.

danke im voraus!