Schlüsselwörter:
Fuzzy-Clusteranalyse Fuzzy-Datenanalyse
SchlagwortnormdateiAbstract
Finding clusters of homogenous data points is an important task in
data analysis. The aim of cluster analysis is to divide a given
dataset into clusters of homogenous data. One of the main problems is
that sometimes clusters are not well separated. That is, there are data
points lying between them, which can be seen as belonging (partially)
to different clusters. Fuzzy cluster analysis is a method to handle
such data points. It is based on the idea to introduce membership
degrees between 0 and 1 which are meant to describe how well a
data point belongs to a cluster.
Following a brief introduction to fuzzy cluster analysis which reviews
the basic ideas and the most important algorithms, I focus on three
aspects of fuzzy clustering, which are very important for successful
data analysis:
In the first place, I propose an extension of possibilistic fuzzy
clustering. This extension is based on cluster repulsion and
considerably improves the clustering results in cases in which the
clusters are not well separated.
Secondly, I study how missing values can be handled in
fuzzy clustering. Since discarding data with missing values throws away
valuable information, I concentrate on approaches based on iterative
imputation, available case estimation of the cluster parameters and
the introduction of a class specific probability for missing values.
Thirdly, I examine how to handle class information in
fuzzy cluster analysis, where a class can
consist of several clusters. The main problem is to cleanly separate
the classes, which I try to solve by introducing a penalty for
clusters comprising several classes and a class repulsion term.
Gruppen/Cluster von homogenen Datenpunkten zu finden, ist eine
wichtige Aufgabe der Datenanalyse. Das Ziel der Clusteranalyse
ist, einen Datensatz in Gruppen von homogenen Daten zu
unterteilen. Doch häufig sind die in den Datensätzen vorliegenden
Cluster nicht gut voneinander getrennt. D.h., zwischen ihnen liegen
Datenpunkte, die man mehreren Clustern zuordnen kann.
Die Fuzzy-Clusteranalyse ist eine Möglichkeit, mit solchen
Datenpunkten umzugehen, indem sie
den Clustern mit einem Zugehörigkeitsgrad zwischen 0 und 1
zugeordnet werden. Der Zugehörigkeitsgrad
beschreibt, wie typisch ein Datum für einen Cluster ist.
Aufbauend auf einer kurzen Einführung in die Fuzzy-Clusteranalyse,
die die grundlegenden Ideen und die wichtigsten Verfahren vorstellt,
werden drei für eine erfolgreiche Datenanalyse wichtige Gebiete untersucht.
Erstens wird eine Erweiterung der possibilistischen Fuzzy-Clusteranalyse
vorgestellt. Die Erweiterung basiert auf der Modellierung einer Abstoßung
zwischen Clustern und führt zu einer wesentlichen Verbesserung des
Klassifikationsergebnisses, wenn die Cluster nicht gut separiert
sind.
Zweitens wird betrachtet, wie man Daten mit fehlenden Werten bei der
Fuzzy-Clusteranalyse behandeln kann. Das Entfernen von Daten mit fehlenden
Werten vor der Fuzzy-Clusteranalyse führt zu einem größeren
Informationsverlust. Daher untersuche ich Ansätze basierend auf einer
iterierten Schätzung, der „available case“-Berechnung der
Clusterparameter und der Verwendung einer clusterspezifischen
Wahrscheinlichkeit für fehlende Werte.
Drittens untersuche ich Möglichkeiten, Klasseninformation bei
der Fuzzy-Clusteranalyse zu verwenden, wobei eine Klasse aus mehreren
Clustern bestehen kann. Das Problem ist, die Klassen (sauber)
zu trennen. Hierfür führe ich einen Strafterm für Cluster, die
mehrere Klassen umfassen, und eine klassenabhängige Abstoßung
ein.
| Betreuer | Kruse, Rudolf; Prof. Dr. |
| Gutachter | Klawonn, Frank; Prof.Dr. |
| Gutachter | Behr, Dietrich; Prof.Dr. |
| Upload: | 2002-07-23 |
| URL of Theses: | http://diglib.uni-magdeburg.de/Dissertationen/2002/heitimm.pdf |