You are not logged in.

Operator

Praktikant

  • "Operator" is male

Posts: 28

Date of registration: Oct 9th 2007

41

Thursday, March 5th 2015, 1:35pm

Quoted

Ich glaube die lösungen tauchen nicht mehr auf. Plan b ist zu vergleichen. Ich poste infach mal was ich raus bekommen habe.

Exercise 1

1. Query optimization

A document collection with 125,000 documents contains film reviews. Given is the
following query:

(NOT horror) AND (film OR animation) AND (action OR comedy)

75k 62k +3k 41k+ 40k => Erst die operation mit kleinsten Mengen (not horror) and (film and animation) und dann erst and (action or comedy)

Ich habe jetzt ignoriert, dass horror negiert ist, habe dazu nichts gefunden.

Quoted

Specify the most efficient order of execution for this query that can be determined from the
following table:

Term DF
horror 75,000
film 62,000
animation 3,000
action 41,000
comedy 40,000

Is the order you proposed always optimal?


Die disjunktion (or) wird konservativ duch das adieren der mengen größen abgeschätzt, es kann aber sein, dass comedy und action in selber documenten vorkommen also die mengen ähnlich sind und die verienigte menge dann so klein ist das dann zweite konjunktion als erstes ausgeführt werden sollte.



Quoted

2. Inverted index

Given is the following document collection:
D1:
Ice Age 4 was released in 34 territories.
D2:
Ice Age 4 (original Ice Age: Continental Drift) is a 2012 American computer-animated comedy
film.

Create an inverted index for this document collection. Tokenization rules: word wise, case-
folding, ignore punctuation. Stop list: was, in, is, a. Include TF and DF values at a suitable
position in the index.


so exemplarisch für den term ice: d1 tf=1/6 d2 tf=2/13 df=2/2

Quoted

Which search results can be obtained from this index for the following queries?

Q 1 = Ice Age => d1, d2
Q 2 = Tokyo Drift => nichts
Der Mensch verbringt bis zu 30% des Lebens im Schlaf.
==>Mit Kaffe kann man die bewuste Lebenserwartung um bis zu 30% Erhöhen.

fjen

  • "fjen" is male

Posts: 449

Date of registration: Oct 10th 2010

42

Thursday, March 5th 2015, 1:37pm

Studentische Lösungen aus dem letzen Jahr befinden sich in der Materialsammlung.

This post has been edited 1 times, last edit by "fjen" (Mar 5th 2015, 1:37pm)


JoX

Praktikant

Posts: 8

Date of registration: Jul 4th 2012

43

Sunday, March 8th 2015, 5:44pm

Quoted

Ich glaube die lösungen tauchen nicht mehr auf. Plan b ist zu vergleichen. Ich poste infach mal was ich raus bekommen habe.

Exercise 1

1. Query optimization

A document collection with 125,000 documents contains film reviews. Given is the
following query:

(NOT horror) AND (film OR animation) AND (action OR comedy)

75k 62k +3k 41k+ 40k => Erst die operation mit kleinsten Mengen (not horror) and (film and animation) und dann erst and (action or comedy)

Ich habe jetzt ignoriert, dass horror negiert ist, habe dazu nichts gefunden.
Da horror negiert ist, gilt für die DF von horror: DF~=125.000-75.000~=50.000. An der Ausführungsreihenfolge, die du angegeben hast, ändert sich aber nichts.

Quelle: Übungsleiter

Ist ja auch irgendwie logisch, wenn du 125.000 Dokumente hast wo 75.000 "horror" drin steht, steht in den anderen 50.000 nicht "horror" drin (sonst hätten sie ja zu den 75.000 dazu gezählt).

This post has been edited 1 times, last edit by "JoX" (Mar 8th 2015, 5:47pm)