Bei deinem letzten Beitrag würde ein Tokenizer folgende Token rausziehen: Danke, für, deine, Schnelle, Antwort, aber, ich, brauche, eigentlich, ein, Beispiel, von, Term, und, Token;
Angenommen die Normalisierung würde die Token nur in Kleinschreibung bringen, dann wären die Terme (Äquivalenzklassen): danke, für, deine, schnelle, antwort, ...
Unterschiedliche Token wie bspw. dAnKe und Danke werden beide auf den Term 'danke' normalisiert. Gibt halt Sinn, um die Termliste (Dictionary) klein zu halten und da der geringfügige Verlust an Precision durch oft großen Gewinn an Recall ausgeglichen ist.