Timm, Heiko

Fuzzy-Clusteranalyse: Methoden zur Exploration von Daten mit fehlenden Werten sowie klassifizierten Daten

Thesis

Filetyp: PDF (.pdf)
Size: 1320 Kb

Schlüsselwörter:

Fuzzy-Clusteranalyse Fuzzy-Datenanalyse

Schlagwortnormdatei
30 INFORMATIK, DATENVERARBEITUNG
Sachgruppe der DNB
28 Informatik, Datenverarbeitung


Doctoral Dissertation accepted by: Otto-von-Guericke-Universität Magdeburg , The Faculty of Computer Science, 21.6.2002

Abstract

Finding clusters of homogenous data points is an important task in data analysis. The aim of cluster analysis is to divide a given dataset into clusters of homogenous data. One of the main problems is that sometimes clusters are not well separated. That is, there are data points lying between them, which can be seen as belonging (partially) to different clusters. Fuzzy cluster analysis is a method to handle such data points. It is based on the idea to introduce membership degrees between 0 and 1 which are meant to describe how well a data point belongs to a cluster. Following a brief introduction to fuzzy cluster analysis which reviews the basic ideas and the most important algorithms, I focus on three aspects of fuzzy clustering, which are very important for successful data analysis: In the first place, I propose an extension of possibilistic fuzzy clustering. This extension is based on cluster repulsion and considerably improves the clustering results in cases in which the clusters are not well separated. Secondly, I study how missing values can be handled in fuzzy clustering. Since discarding data with missing values throws away valuable information, I concentrate on approaches based on iterative imputation, available case estimation of the cluster parameters and the introduction of a class specific probability for missing values. Thirdly, I examine how to handle class information in fuzzy cluster analysis, where a class can consist of several clusters. The main problem is to cleanly separate the classes, which I try to solve by introducing a penalty for clusters comprising several classes and a class repulsion term.

Gruppen/Cluster von homogenen Datenpunkten zu finden, ist eine wichtige Aufgabe der Datenanalyse. Das Ziel der Clusteranalyse ist, einen Datensatz in Gruppen von homogenen Daten zu unterteilen. Doch häufig sind die in den Datensätzen vorliegenden Cluster nicht gut voneinander getrennt. D.h., zwischen ihnen liegen Datenpunkte, die man mehreren Clustern zuordnen kann. Die Fuzzy-Clusteranalyse ist eine Möglichkeit, mit solchen Datenpunkten umzugehen, indem sie den Clustern mit einem Zugehörigkeitsgrad zwischen 0 und 1 zugeordnet werden. Der Zugehörigkeitsgrad beschreibt, wie typisch ein Datum für einen Cluster ist. Aufbauend auf einer kurzen Einführung in die Fuzzy-Clusteranalyse, die die grundlegenden Ideen und die wichtigsten Verfahren vorstellt, werden drei für eine erfolgreiche Datenanalyse wichtige Gebiete untersucht. Erstens wird eine Erweiterung der possibilistischen Fuzzy-Clusteranalyse vorgestellt. Die Erweiterung basiert auf der Modellierung einer Abstoßung zwischen Clustern und führt zu einer wesentlichen Verbesserung des Klassifikationsergebnisses, wenn die Cluster nicht gut separiert sind. Zweitens wird betrachtet, wie man Daten mit fehlenden Werten bei der Fuzzy-Clusteranalyse behandeln kann. Das Entfernen von Daten mit fehlenden Werten vor der Fuzzy-Clusteranalyse führt zu einem größeren Informationsverlust. Daher untersuche ich Ansätze basierend auf einer iterierten Schätzung, der „available case“-Berechnung der Clusterparameter und der Verwendung einer clusterspezifischen Wahrscheinlichkeit für fehlende Werte. Drittens untersuche ich Möglichkeiten, Klasseninformation bei der Fuzzy-Clusteranalyse zu verwenden, wobei eine Klasse aus mehreren Clustern bestehen kann. Das Problem ist, die Klassen (sauber) zu trennen. Hierfür führe ich einen Strafterm für Cluster, die mehrere Klassen umfassen, und eine klassenabhängige Abstoßung ein.

Betreuer Kruse, Rudolf; Prof. Dr.
Gutachter Klawonn, Frank; Prof.Dr.
Gutachter Behr, Dietrich; Prof.Dr.

Upload: 2002-07-23
URL of Theses: http://diglib.uni-magdeburg.de/Dissertationen/2002/heitimm.pdf

Otto-von-Guericke-Universität Magdeburg , Universitätsbibliothek
Universitätsplatz 2 , D - 39106 Magdeburg