Hi,
spät aber immerhin hier ein Angebot für die, die noch ein Labor für dieses Semester suchen:
Ein großer Teil des Webs (estimiert ca 30%) besteht aus Webspam. Hierbei handelt es sich um maschinell generierte Seiten, mit dem einzigen Ziel, einige wenige Seiten in den Suchmaschinen bei Suchen auf die vorderen Plätze zu befördern. Am bekanntesten sind euch wahrscheinlich Scheinseiten bei geparkten Domains mit sinnlosen Informationen, oder pseudo-suchmaschinen, die immer die gleichen Ergebnisse bringen etc.
Normalerweise versucht man, dem mit maschinellem Lernen beizukommen. Man bildet eine Menge von Features, z.b. Anzahl der Links einer Seite, Länge des Textes oder des Titels, Komprimierbarkeit etc. und klassifiziert manuell eine Menge von Seiten in Spam/non-Spam. Das Lernen kann dann z.B. von einer Software wie
Weka durchgeführt werden.
Wir untersuchen derzeit, ob die Entwicklung der Featurewerte über die Zeit genutzt werden kann, um Webpsam Sites noch besser zu erkennen. Dies sollte funktionieren, da sich Spam Websites meist deutlich schneller und anders verändern als normale Websites, z.B. wenn eine andere Site in den Suchmaschinen gepusht werden soll, etc.
Wir haben derzeit eine große Kollektion von Webpages, die in regelmäßigen Abständen gecrawlt wurden. Die Features wurden auch schon berechnet. Aufgabe in diesem Labor wäre es, die Entwicklung der Features zu berechnen und mittels Weka zu untersuchen, ob sich damit Spampages besser erkennen lassen.
Bei Interesse bitte Mail an:
Gideon Zenz
zenz@l3s.de
Wolf Siberski
siberski@l3s.de