Sie sind nicht angemeldet.

Operator

Praktikant

  • »Operator« ist männlich

Beiträge: 18

Registrierungsdatum: 9. Oktober 2007

41

Donnerstag, 5. März 2015, 13:35

Zitat

Ich glaube die lösungen tauchen nicht mehr auf. Plan b ist zu vergleichen. Ich poste infach mal was ich raus bekommen habe.

Exercise 1

1. Query optimization

A document collection with 125,000 documents contains film reviews. Given is the
following query:

(NOT horror) AND (film OR animation) AND (action OR comedy)

75k 62k +3k 41k+ 40k => Erst die operation mit kleinsten Mengen (not horror) and (film and animation) und dann erst and (action or comedy)

Ich habe jetzt ignoriert, dass horror negiert ist, habe dazu nichts gefunden.

Zitat

Specify the most efficient order of execution for this query that can be determined from the
following table:

Term DF
horror 75,000
film 62,000
animation 3,000
action 41,000
comedy 40,000

Is the order you proposed always optimal?


Die disjunktion (or) wird konservativ duch das adieren der mengen größen abgeschätzt, es kann aber sein, dass comedy und action in selber documenten vorkommen also die mengen ähnlich sind und die verienigte menge dann so klein ist das dann zweite konjunktion als erstes ausgeführt werden sollte.



Zitat

2. Inverted index

Given is the following document collection:
D1:
Ice Age 4 was released in 34 territories.
D2:
Ice Age 4 (original Ice Age: Continental Drift) is a 2012 American computer-animated comedy
film.

Create an inverted index for this document collection. Tokenization rules: word wise, case-
folding, ignore punctuation. Stop list: was, in, is, a. Include TF and DF values at a suitable
position in the index.


so exemplarisch für den term ice: d1 tf=1/6 d2 tf=2/13 df=2/2

Zitat

Which search results can be obtained from this index for the following queries?

Q 1 = Ice Age => d1, d2
Q 2 = Tokyo Drift => nichts
Der Mensch verbringt bis zu 30% des Lebens im Schlaf.
==>Mit Kaffe kann man die bewuste Lebenserwartung um bis zu 30% Erhöhen.

fjen

  • »fjen« ist männlich

Beiträge: 435

Registrierungsdatum: 10. Oktober 2010

42

Donnerstag, 5. März 2015, 13:37

Studentische Lösungen aus dem letzen Jahr befinden sich in der Materialsammlung.

Dieser Beitrag wurde bereits 1 mal editiert, zuletzt von »fjen« (5. März 2015, 13:37)


JoX

Praktikant

Beiträge: 8

Registrierungsdatum: 4. Juli 2012

43

Sonntag, 8. März 2015, 17:44

Zitat

Ich glaube die lösungen tauchen nicht mehr auf. Plan b ist zu vergleichen. Ich poste infach mal was ich raus bekommen habe.

Exercise 1

1. Query optimization

A document collection with 125,000 documents contains film reviews. Given is the
following query:

(NOT horror) AND (film OR animation) AND (action OR comedy)

75k 62k +3k 41k+ 40k => Erst die operation mit kleinsten Mengen (not horror) and (film and animation) und dann erst and (action or comedy)

Ich habe jetzt ignoriert, dass horror negiert ist, habe dazu nichts gefunden.
Da horror negiert ist, gilt für die DF von horror: DF~=125.000-75.000~=50.000. An der Ausführungsreihenfolge, die du angegeben hast, ändert sich aber nichts.

Quelle: Übungsleiter

Ist ja auch irgendwie logisch, wenn du 125.000 Dokumente hast wo 75.000 "horror" drin steht, steht in den anderen 50.000 nicht "horror" drin (sonst hätten sie ja zu den 75.000 dazu gezählt).

Dieser Beitrag wurde bereits 1 mal editiert, zuletzt von »JoX« (8. März 2015, 17:47)