Clusterproblem
Einfache Sprache
Def. Clusterproblem
Gegeben ist eine Datenbank $D$ mit $n$ Datenpunkten in einem $d$-Dimensionalen Raum. Ziel ist es alle Datenpunkte $k\in\mathbb N$ vielen Gruppen $C_i\subseteq D$, mit $i\in[0,k]$ zuzuordnen. Dabei soll die Ähnlichkeit innerhalb eine Gruppe maximiert und die Ähnlichkeit zwischen Gruppen minimiert werden.
Varianten
Dabei gibt es folgende Varianten
Partitioniertes Clustering
Die $C_i$ Gruppen müssen paarweise disjunkt sein. Also jeder Datenpunkt kann nur einer Gruppe zugehören.
Überlappendes Clustering
Die $C_i$ Gruppen müssen nicht paarweise disjunkt sein.
Flaches Clustering
Quasi Partitioniertes Clustering.
Hierarchisches Clustering
Ein Gruppe selbst kann durch Clustering in weitere Teilgruppen aufgeteilt werden.