Dies ist eine statische Kopie unseres alten Forums. Es sind keine Interaktionen möglich.
This is a static copy of our old forum. Interactions are not possible.

Kasi

Praktikant

  • "Kasi" is male
  • "Kasi" started this thread

Posts: 31

Date of registration: Jul 22nd 2005

Location: Sulingen

1

Wednesday, February 7th 2007, 6:24pm

Technologien f. d. Internet I > alte Hasen

Hat jemand schon mal diese Klausur geschrieben?

Was sind so die Schwerpunkte der Themen und wird es größtenteils rechnen sein, oder mehr auswendiglern-Fragen drankommen?

oixio

Senior Schreiberling

  • "oixio" is male

Posts: 517

Date of registration: Oct 3rd 2004

2

Wednesday, February 7th 2007, 7:13pm

Insgesamt gab es 4 Themenkomplexe, dazu jeweils eine größere Rechenaufgabe und ein paar Wissensfragen. Zu den Rechenaufgaben: was in der Übung gerechnet wurde, sollte auch in der Klausur gerechnet werden können. Wenn man vorbereitet war, dann sollte das kein Problem darstellen.

Kurz im Gedächtnis kramen, was man unter Anderem machen musste:
- Pagerank
- BowTie malen
- Irgendso einen Index aufstellen

Ich hoffe das hilft weiter. Mehr fällt mir im Moment nicht ein.
Dieser Post wurde aus 100 % chlorfrei gebleichten, handelsüblichen, freilaufenden, glücklichen Elektronen erzeugt!

DrChaotica

Senior Schreiberling

  • "DrChaotica" is male

Posts: 714

Date of registration: Jan 22nd 2005

Location: SHG

Occupation: SW-Entwickler

3

Wednesday, February 7th 2007, 7:58pm

Danke! Nur was hat es damit auf sich?

Quoted

Original von oixio
- BowTie malen

Ein was, bitte? :D

Dot

Senior Schreiberling

Posts: 618

Date of registration: Feb 3rd 2003

Location: Ex-Europameisterland

Occupation: 4TheScience

4

Wednesday, February 7th 2007, 8:42pm

edit
C:\reality.sys has errors - Reboot the universe? (Y/N)

Real programmers don't comment their code.
It was hard to write, it should be hard to understand

This post has been edited 1 times, last edit by "Dot" (Feb 7th 2007, 8:43pm)


Teklan

Erfahrener Schreiberling

Posts: 267

Date of registration: Nov 13th 2004

Location: Hannover

5

Wednesday, February 7th 2007, 10:38pm

Hatte letztes Jahr mal so eine Art "besser-als-nichts-"Gedächtnisprotokoll für eine Kommilitonin angefertigt:

– klausur war in 4 oder 5 Bereiche mit je etwa 4 Aufgaben strukturiert
(Information Retrieval, Document Indexing, Internet allgemein, ...?)
– es gab 2 große, viele Punkte bringende Aufgaben (Full-Text-Indexing, Pagerank)
– abgesehen von den 2 obigen praktischen Aufgaben, nur Wissensfragen


Aufgaben:
– Full-Text-Indexing
gegeben: zwei Zitate
zu machen: Full-Text-Indexing der Zitate mit lexikographisch sortierten Wörtern
+ Anwenden von idx.tf (oder so) auf bestimmte vorgegebene Wörter
(zugehörige Formel war angegeben!!)
– Pagerank wie in der Übung
– Spell-Correction, Bestimmung der Edit-Distance von zwei Wörtern
– angeben von verschiedenen Retrieval Systems
– benennung und erläuterung von 5 Eigenschaften des Internets
– bezeichne Elemente (Protokoll, hosts etc )von z.b „http\\web.de\login“

Aufgaben, die nicht vorkamen:– Biwords, biword-indexing
– berechnungen zu n-grams
– Soundex
– Lucene
– Fragen nach konkreten Zahlen
gefühlsmäßig ausgedrückt: DetailWissen zu den „CS276“-Folien wurde nicht abgefragt


mein Fazit:

– 90% aller Aufgaben sind in der gebenenen Zeit vollständig und „gut“ lösbar
– pro Aufgabe (abgesehen von Pagerank, Full-Text-Indexing) müsste ein Drittel eines DIN-A4
Blattes ausreichen NICHT mEHR!
– Lernen allgemein: zu jeder Methode (biword-indexing whatever) Schlüsselwörter,
UNGEFÄHRE Zusammenhänge kennen – was einem nicht verständlich ist – Mut zur Lücke
...und zumindest eine 1,7 sollte drin sein ;-). Bisschen mehr lernen und man hat ne 1^^.
die 500 Seiten Folien zur Vorlesung sind in drei intensiven Tagen drin.

edit: Übungsbetreuer war Herr Kohlschütter

This post has been edited 1 times, last edit by "Teklan" (Feb 7th 2007, 10:41pm)


oixio

Senior Schreiberling

  • "oixio" is male

Posts: 517

Date of registration: Oct 3rd 2004

6

Wednesday, February 7th 2007, 10:44pm

Quoted

Original von DrChaotica
Danke! Nur was hat es damit auf sich?

Quoted

Original von oixio
- BowTie malen

Ein was, bitte? :D


Öhhh war das der falsche Ausdruck? Den hat der Übungsleiter doch benutzt... Ich meine diese Art "Fliege", wie das Internet aufgebaut ist, mit dem Kern in der Mitte etc. Das mussten wir malen und auch passend beschriften.
Dieser Post wurde aus 100 % chlorfrei gebleichten, handelsüblichen, freilaufenden, glücklichen Elektronen erzeugt!

Dot

Senior Schreiberling

Posts: 618

Date of registration: Feb 3rd 2003

Location: Ex-Europameisterland

Occupation: 4TheScience

7

Thursday, February 8th 2007, 6:57am

WebAnatomy heisst das Ding
C:\reality.sys has errors - Reboot the universe? (Y/N)

Real programmers don't comment their code.
It was hard to write, it should be hard to understand

Dot

Senior Schreiberling

Posts: 618

Date of registration: Feb 3rd 2003

Location: Ex-Europameisterland

Occupation: 4TheScience

8

Thursday, February 8th 2007, 12:17pm

Quoted

Original von Teklan

– benennung und erläuterung von 5 Eigenschaften des Internets


Was meinst du denn damit?
C:\reality.sys has errors - Reboot the universe? (Y/N)

Real programmers don't comment their code.
It was hard to write, it should be hard to understand

Teklan

Erfahrener Schreiberling

Posts: 267

Date of registration: Nov 13th 2004

Location: Hannover

9

Thursday, February 8th 2007, 3:33pm

Quoted

Original von Dot

Quoted

Original von Teklan

– benennung und erläuterung von 5 Eigenschaften des Internets


Was meinst du denn damit?


Sachen wie Internet ist dynamisch, d.h blabla; das Netz expandiert, d.h. blablub weil blabla etc. Auf irgendneiner Folie aus dem Foliensatz zur Vorlesung müsste so ne Auflistung zu finden sein.

Und zu diesem BowTie - bei google unter Bilder einfach mal "bow tie structure" eintippen

root

Trainee

  • "root" is male

Posts: 88

Date of registration: Feb 6th 2003

Location: Hannover

10

Thursday, February 8th 2007, 3:57pm

Quoted

Full-Text-Indexing
gegeben: zwei Zitate
zu machen: Full-Text-Indexing der Zitate mit lexikographisch sortierten Wörtern
+ Anwenden von idx.tf (oder so) auf bestimmte vorgegebene Wörter


Hat da jemand eine Beispielaufgabe für mich?
In den Übungen kann ich dazu nichts entdecken.
Habe das Thema in den Folien nicht so richtig verstanden. Bei tf.idf geht es ja um das Vektorraummodell, oder?

DrChaotica

Senior Schreiberling

  • "DrChaotica" is male

Posts: 714

Date of registration: Jan 22nd 2005

Location: SHG

Occupation: SW-Entwickler

11

Thursday, February 8th 2007, 5:57pm

Quoted

Original von root
Hat da jemand eine Beispielaufgabe für mich?
In den Übungen kann ich dazu nichts entdecken.
Habe das Thema in den Folien nicht so richtig verstanden. Bei tf.idf geht es ja um das Vektorraummodell, oder?


Richtig. Warst Du in der vorletzten Stunde dabei?, da hat er zur Indizierung nochmal ein Beispiel gebracht.

Mal sehen...alles, was dafür wichtig ist, steht in "lecture6.pdf" drinne. Die tf.idf - Formel ist auf Seite 7, unten links erklärt.

Bsp: Habe zwei Dokumente D1 und D2, die ich Full-Text indizieren möchte.

D1: "Ich habe Hunger."
D2: "Ich werde müde von diesen Themen."

Baue Index auf mit lexikographischer Sortierung der Wörter:

diesen -> [2;5] (soll heißen: "diesen" kommt vor in Dok2, Position 5)
habe -> [1;2]
Hunger -> [1;3]
Ich -> [1;1], [2;1]
müde -> [2;3]
Themen -> [2;6]
von -> [2;4]
werde -> [2;2]

Bsp1:
Wende tf.idf an auf den Term "Ich" in Dok1:
- Term kommt in zwei Doks vor -> df=2
- n = Anzahl der Doks = 2
- Term kommt in Dok1 einmal vor -> tf=1
Berechne tf.idf = tf * log(n / df) = 1* log(2/2) = 0
-> "Bag of Words"-Interpretation: Term "Ich" kommt sowieso in jedem Dokument vor, und spielt daher zur Charakterisierung von Dokument 1 keine Rolle.

Bsp2:
Wende tf.idf an auf den Term "Hunger" in Dok1:
- df=1, n=2, tf=1, tf.idf = 1* log(2/1) = ca. 0,3
Wende tf.idf an auf den Term "Hunger" in Dok2:
- df=1, n=2, tf=0, tf.idf = 0* log(2/1) = 0
-> Dieser Term beschreibt Dok1 gut, aber Dok 2 schlecht, da das Wort hier gar nicht auftaucht.

Der Skript sagt jetzt:

-Each doc j can now be viewed as a vector of wf*idf values (Anmerkung: wf ist FAST tf. Die genaue Def. steht ein paar Seiten vor tf.idf), one component for each term

-So we have a vector space

-terms are axes
-docs live in this space
-even with stemming, may have 20,000+ dimensions

(The corpus of documents gives us a matrix,
which we could also view as a vector space in
which words live – transposable data)


Ich verstehe das so, dass man nun ein Matrix basteln kanns in der z.B. links eine Auflistung aller Wörter, die es überhaupt in den Doks gibt, stehen, und oben eine Auflistung der Dokumente. Für jedes Wort i und jedes Dok j wird dann durch den tf.idf bestimmt, wie gut Wort i das Dok j beschreibt.
Im Vektorraum-Modell wäre Dok j damit also durch einen Vektor [tf.idf für Wort 1 (UND natürlich Dok j), tf.idf für Wort 2, ...., tf.idf für das letzte Wort) also vollständig charakterisiert.

Hätte ich nun eine Query, würde ich alle Querywörter herausnehmen und daraus auch einen Vektor in genau diesem Vektorraum erstellen. Der euklidische Abstand dieses Vektors zu einem Dokumentenvektor (oder die Winkeldifferenz) könnte dann etwas darüber aussagen, wie gut die Query zum Dokument passt; je kürzer der Abstand (oder je spitzer der Winkel), desto besser, und desto höher sollte auch das Ranking dieses Doks sein (wenn ich das richtig verstanden habe, kann man hier nun noch weitere Faktoren wie den Pagerank einfach dranmultiplizieren, oder?).

HTH... ich denke, das sollte so ungefähr stimmen. Falls jemand etwas ganz grob falsches entdecken sollte, möge er schreien ;)

This post has been edited 1 times, last edit by "DrChaotica" (Feb 8th 2007, 6:10pm)


Dot

Senior Schreiberling

Posts: 618

Date of registration: Feb 3rd 2003

Location: Ex-Europameisterland

Occupation: 4TheScience

12

Thursday, February 8th 2007, 7:07pm

Genau,und er hat es erklärt,weil ich danach gefragt habe, wollt ich nur mal anmerken :D
Das mit dem Pagerank dranmultiplizieren bin ich mir nicht so sicher,hast dafür ne Quelle? Ich kann mich nämlich nicht an sowas erinnern,kann natürlich auch einfach an den Löchern in Gehirn liegen :P

Ach ja, ich würde wenn ich den Index aufbaue auch noch die Df explizit angeben, er hats so gemacht,also kanns nich schaden :)

Übrigens macht einen dieses Fach sehr sensitive in Sachen Internet, habt ihr schon gemerkt,dass Mr. Kohlschütter seine Mail "verschlüsselt" hat, damit Mail Crawler sie nicht finden können? :P
C:\reality.sys has errors - Reboot the universe? (Y/N)

Real programmers don't comment their code.
It was hard to write, it should be hard to understand

This post has been edited 2 times, last edit by "Dot" (Feb 8th 2007, 7:09pm)


root

Trainee

  • "root" is male

Posts: 88

Date of registration: Feb 6th 2003

Location: Hannover

13

Thursday, February 8th 2007, 7:25pm

Vielen Dank für die Antworten.
Jetzt bekomme ich das morgen auch hin :)

DrChaotica

Senior Schreiberling

  • "DrChaotica" is male

Posts: 714

Date of registration: Jan 22nd 2005

Location: SHG

Occupation: SW-Entwickler

14

Thursday, February 8th 2007, 7:34pm

Quoted

Das mit dem Pagerank dranmultiplizieren bin ich mir nicht so sicher,hast dafür ne Quelle? Ich kann mich nämlich nicht an sowas erinnern,kann natürlich auch einfach an den Löchern in Gehirn liegen :P
Das kenne ich, sowelche Löcher stopft mein Gehirn dann normalerweise mit irgendwelchen Dingen, die möglicherweise auch irgendwie Sinn machen könnten. Die alte, patentierte Ich-weiss-es-nicht-klingt-aber-gut - BWL-Methode. Von daher kann's gut sein, dass es niemals gesagt wurde und es auch nirgends steht ^^

Quoted

Genau,und er hat es erklärt,weil ich danach gefragt habe, wollt ich nur mal anmerken :D
Und ich dachte, ich wäre der einzige gewesen, der bei dieser Veranstaltung halbwegs griechisch dreingeschaut hat...*kombiniermütze aufsetz* dann bist Du vermutlich der eine, der immer links gesessen hat und irgendwann gefragt hat, ob 'tf' und 'Tf' unterschiedliche Dinge sind...ha, schon wieder einer im Index ;)

Quoted

Übrigens macht einen dieses Fach sehr sensitive in Sachen Internet, habt ihr schon gemerkt,dass Mr. Kohlschütter seine Mail "verschlüsselt" hat, damit Mail Crawler sie nicht finden können? :P
Notiz an mich selbst in alle Paralleluniversen vor einem halben Jahr: Internettechnologien 1='Wie benutze ich meine Suchmaschine?' ;)

Dot

Senior Schreiberling

Posts: 618

Date of registration: Feb 3rd 2003

Location: Ex-Europameisterland

Occupation: 4TheScience

15

Thursday, February 8th 2007, 7:42pm

was bedeutet "griechisch dreinschauen"?
Und ja,immer ganz links,kann man flüchten und den Laptoplüfter kann man net hören :D

Du warst jetzt aber nicht der Mathematiker weiter hinten oder?Der die ganze Zeit geredet hat, oder wie ich ihn nenne, den "Experten" :D
C:\reality.sys has errors - Reboot the universe? (Y/N)

Real programmers don't comment their code.
It was hard to write, it should be hard to understand

This post has been edited 2 times, last edit by "Dot" (Feb 8th 2007, 7:58pm)


DrChaotica

Senior Schreiberling

  • "DrChaotica" is male

Posts: 714

Date of registration: Jan 22nd 2005

Location: SHG

Occupation: SW-Entwickler

16

Thursday, February 8th 2007, 8:36pm

Weiß nicht, ich verbinde damit irgendwie einen ganz speziellen Gesichtsausdruck...vielleicht so wie der von einer antiken Marmorstatue, oder Kevin Sorbo als Hercules. Leicht prüfend, und durch stetige Konzentration immer darum bemüht ein sich anbahnendes langgestrecktes Gähnen zu vermeiden. Ja genau, so wie Homer Simpson mit seiner Aufmerksamkeitsbrille! ;)
Nein, ich hab Mitte-vorne-rechts gesessen. Dass der Experte so schöne Fragen gestellt hat war klasse, so musste man sich wenigstens nicht noch selbst darum kümmern 8)

Dot

Senior Schreiberling

Posts: 618

Date of registration: Feb 3rd 2003

Location: Ex-Europameisterland

Occupation: 4TheScience

17

Thursday, February 8th 2007, 8:55pm

Ja genau, Kevin Sorbo, looos Minolaos, du kleine blonde Tucke :D
Fandest du nich auch,dass die Serie so eine Art Softporno zur Mittagszeit war? :D :P
Ach mist, bald kriegen wir Ärger wegen dem Offtopic ;(
C:\reality.sys has errors - Reboot the universe? (Y/N)

Real programmers don't comment their code.
It was hard to write, it should be hard to understand

DrChaotica

Senior Schreiberling

  • "DrChaotica" is male

Posts: 714

Date of registration: Jan 22nd 2005

Location: SHG

Occupation: SW-Entwickler

18

Thursday, February 8th 2007, 9:10pm

ja, ich vermisse macGyer, xena, und hercules. und natürlich die lexx - zerstörerin der welten, oder so. was ist nur mit den ganzen tollen sendungen geworden?
offtopic? wieso, ist das hier nicht smalltalk?...ooops ;)

This post has been edited 1 times, last edit by "DrChaotica" (Feb 8th 2007, 9:13pm)


Dot

Senior Schreiberling

Posts: 618

Date of registration: Feb 3rd 2003

Location: Ex-Europameisterland

Occupation: 4TheScience

19

Thursday, February 8th 2007, 9:22pm

lexx war super,aber nur die erste short serie, da wo die blonde noch heiss war, in der richtigen serie war die ja nich so prall :P
C:\reality.sys has errors - Reboot the universe? (Y/N)

Real programmers don't comment their code.
It was hard to write, it should be hard to understand

Panschk[FP]

Junior Schreiberling

  • "Panschk[FP]" is male

Posts: 148

Date of registration: Oct 21st 2005

Location: H-town

Occupation: Informatik Master

20

Friday, February 9th 2007, 6:19pm

Ich kam zwar zeitlich halbwegs hin, aber der Umfang der "Pagerank" und Indexing Aufgabe war doch ganz schön happig. Das man bei der Pagerank-Aufgabe 5 Iterationen berechnen musste hat mich zum Computer degradiert. Nach 3 Iterationen wär doch auch klar gewesen, ob jemand das Prinzip verstanden hat, wozu diese Quälerei?