This post has been edited 2 times, last edit by "MAX" (Mar 15th 2005, 8:25pm)
Guru
Date of registration: Dec 11th 2001
Location: Hämelerwald
Occupation: Wissenschaftlicher Mitarbeiter (Forschungszentrum L3S, TU Braunschweig)
Ein Fehler. Bei dem im Skript vorgemachten Rechenweg haut so einiges nicht hin. Einfach ignorieren, so schwer ist der Algorithmus ja nicht.Quoted
Original von MAX
Hallo!
Es geht um Apriori-Algorithm. Eine Frage zum Beispiel mit der Kleidung. Kann es sein, dass hier im ersten Durchlauf ein Fehler aufgetreten ist? Und zwar gehört doch Item "Shorts" nicht zu der Menge der Frequent Itemsets, da support(Shorts) = 25% und die obere Schranke s = 30% ist. Ich habe insgesamt 5 Mal Shorts gezählt und es gibt 20 Transaktionen. Also 5/20 = 0,25 also 25 %. Warum wurde dieses Item trotzdem in die Menge aufgenommen? Habe ich was übersehen oder ist es ein Fehler im Skript?
Quoted
Original von Joachim
Mal was anderes: Ich war nicht in allen Übungen. In einer Übung wurde laut Skript ein Algorithmus für das hierarchische Clustern vorgestellt. Könnte den bitte mal jemand posten?
Source code |
|
1 2 3 4 5 6 7 8 9 10 11 12 13 |
d = 0; k = n; K = { {t1},...,{tn} }; DE = { <d,k,K> } repeat oldk = k; d = d + 1; // Hierachiestufe um eine Einheit erhöhen Ad; // Adjazenzmatrix für die Distanz d <k,K> = new Cluster(Ad,d); if (oldk != k ) DE = DE U <d,k,K> until k = 1; |
This post has been edited 1 times, last edit by "dfex" (Mar 16th 2005, 11:51am)
Alter Hase
Date of registration: Oct 9th 2002
Location: Zimbabwe-Island Ost Beiträge: 3.427
Occupation: Informatiker
Quoted
Original von dfex
Complete Link: größter Abstand
Guru
Date of registration: Dec 11th 2001
Location: Hämelerwald
Occupation: Wissenschaftlicher Mitarbeiter (Forschungszentrum L3S, TU Braunschweig)
Danke. Was genau ist hier unter Adjazenzmatrix zu verstehen? Was macht new Cluster(...)?Quoted
Original von dfex
Quoted
Original von Joachim
Mal was anderes: Ich war nicht in allen Übungen. In einer Übung wurde laut Skript ein Algorithmus für das hierarchische Clustern vorgestellt. Könnte den bitte mal jemand posten?
Alg. müsste eigentlich folgender sein:
Source code
1 2 3 4 5 6 7 8 9 10 11 12 13 d = 0; k = n; K = { {t1},...,{tn} }; DE = { <d,k,K> } repeat oldk = k; d = d + 1; // Hierachiestufe um eine Einheit erhöhen Ad; // Adjazenzmatrix für die Distanz d <k,K> = new Cluster(Ad,d); if (oldk != k ) DE = DE U <d,k,K> until k = 1;
Input:
D = {t1,...,tn} (Menge der Elemente, die geclustert werden sollen)
A: Adjazenzmatrix
Output:
DE
Das nicht, aber ich habe die Herleitung zum probabilistischen Modell mal sauber mathematisch aufgeschrieben, den Kram auf den Folien fand ich völlig unverständlich. Falls Du also daran Interesse haben solltest ...Quoted
P.S.: Hat zufällig jemand sich eine Zusammenfassung des Scripts zum kompakten Lernen geschrieben? Wäre nett, wenn jemand soetwas mal posten könnte
Quoted
Original von Ray-D
ich könnte mir vorstellen dass min(max(distance)) immer geclustert wird, habe es aber bisher nicht versucht zu beweisen
Quoted
Original von Joachim
Danke. Was genau ist hier unter Adjazenzmatrix zu verstehen? Was macht new Cluster(...)?
This post has been edited 2 times, last edit by "dfex" (Mar 16th 2005, 12:51pm)
Guru
Date of registration: Dec 11th 2001
Location: Hämelerwald
Occupation: Wissenschaftlicher Mitarbeiter (Forschungszentrum L3S, TU Braunschweig)
Ja, ist klar. Danke.Quoted
Original von dfex
Quoted
Original von Joachim
Danke. Was genau ist hier unter Adjazenzmatrix zu verstehen? Was macht new Cluster(...)?
Also, so wie ich das verstanden hab (meine Aufzeichnungen sind auch nich so besonders ):
Die Adjazenzmatrix beinhaltet die Distanzen zwischen den Elementen nach der jeweiligen gewählten Methode. Z.B. bei Single Link immer die kleinste Distanz. Als Element gilt auch ein im vorherigen Schritt erstellter Cluster. Deswegen muss die Ad in jedem Schritt neu berechnet werden.
edit: stimmt nicht so ganz, weil natürlich die gegeben Distanzen zwischen den ursprünglichen Elementen sich nicht ändert. Es sind jeweils nur die neuen Distanzen für neuen Cluster zu berechnen. Dabei geht man in einem Cluster einfach die einzelnen Elemente durch und vergleicht deren Distanz mit dem "distanzierten Element".
new Cluster(Ad,d) erstellt dann einen neuen Cluster mit den Elementen aus Ad, deren Distanz <= d ist.
hoffe man kanns verstehen ..
Quoted
Original von MAX
Hallo!
Hat jemand die Aufgabe vom 12 Januar mitgeschrieben(selbst gemacht)? Und kann vielleicht hier erklären, worum es geht? Irgendwie verstehe ich nicht, was da gerade zu machen ist. Es geht um Sequential Patterns.
MAX
Quoted
Ja, es gibt Rechenaufgaben, die sich nicht auf die bereitgestellten
Formeln beziehen [In den Hilfen zur Klausur, auf die sie sich beziehen,
stehen nur die Berechnungsvorschriften für GINI, Entropy, und die
Ansätze zum prob. Modell im Information Retrieval.]
Bei der Klausur sollten Sie in der Lage sein, sowohl Textaufgaben /
Fragen als auch Rechenaufgaben zu den Punkten, die auf der Seite
http://www.kbs.uni-hannover.de/%7Ehenze/…Management.html
gelisted sind, zu beantworten.
Guru
Date of registration: Dec 11th 2001
Location: Hämelerwald
Occupation: Wissenschaftlicher Mitarbeiter (Forschungszentrum L3S, TU Braunschweig)
Ich habe noch keine Klausur, in der wirklich der gesamte Stoff angefragt wurde. Es wäre ja auch taktisch unklug vom Prüfer vorher zu sagen, welche Themen in der Klausur behandelt werden.Quoted
Original von MAX
Ok! Danke. Das hilft zuerst weiter.
Es ist wirklich sehr viel, was Frau Henze in 60 min durchnehmen will, wenn tatsächlich alles dran kommen sollte, was auf ihrer HP steht.
Guru
Date of registration: Dec 11th 2001
Location: Hämelerwald
Occupation: Wissenschaftlicher Mitarbeiter (Forschungszentrum L3S, TU Braunschweig)
Hier meine Lösung:Quoted
Original von MAX
Hallo!
Hat jemand die Aufgabe vom 12 Januar mitgeschrieben(selbst gemacht)? Und kann vielleicht hier erklären, worum es geht? Irgendwie verstehe ich nicht, was da gerade zu machen ist. Es geht um Sequential Patterns.
Quoted
Original von Joachim
Nur die Sequenzen AB, AC, BC, BA, CB, CD, CE und DC sind häufig.
.
.
Ich denke, daß das so korrekt sein sollte. Über Kommentare freue ich mich trotzdem, insbesondere bezüglich des Umgangs mit Duplikaten, die ja laut Skript bei sequential patterns nicht erlaubt sind.
Guru
Date of registration: Dec 11th 2001
Location: Hämelerwald
Occupation: Wissenschaftlicher Mitarbeiter (Forschungszentrum L3S, TU Braunschweig)
OK, sehe ich auch gerade im Paper "Mining Sequential Patterns" (zu finden über Citeseer). Das wird im Skript überhaupt nicht klar.Quoted
Original von dfex
Bei Sequential Patterns wird zwar die Reihenfolge beachtet, die Elemente müssen aber nich direkt aufeinanderfolgend sein.