Andelic, Edin

Sparse Nonlinear Discriminants

Thesis

Filetyp: PDF (.pdf)
Size: 746 Kb

Schlüsselwörter:

Kernel-Functions, Machine Learning, Least Squares, Speech Recognition, Classification, Regression

Kernfunktionen, Maschinelles Lernen, Kleinste Quadrate, Spracherkennung, Klassifikation, Regression

Sachgruppe der DNB
37 Elektrotechnik


Doctoral Dissertation accepted by: Otto-von-Guericke-Universität Magdeburg , The Faculty of Electrical Engineering and Information Technology, 2007-11-30

Abstract

This thesis considers training algorithms for machine learning and their applications for classification, regression and automatic speech recognition. Particularly, supervised learning, which is also called learning from samples, is considered. Starting with a short introduction into statistical learning theory it is shown, that supervised learning can be formulated as a function estimation problem where the class of linear functions turns out to be an appropriate choice for obtaining solutions with high generalization ability. The performance of linear functions may then be enhanced further by the use of the so-called kernel functions, which allow effectively to transform certain algorithms into nonlinear spaces. An important advantage of kernel functions is that the estimated functions are still linear in the new nonlinear space such that the theoretical benefits of linear functions regarding the generalization ability are preserved. The discriminant approach turns out to be appropriate for being transformed into nonlinear spaces using kernel functions. We propose some order-recursive algorithms which allow to estimate a nonlinear kernel-induced version of the discriminant with a reasonable cost. These algorithms are based on two facts. First, the discriminant approach is equivalent to a certain least-squares regression. Second, the solution can be sparsified in the sense that only a small fraction of the training points is used for the solution such that the cost for training and testing is remarkably reduced. Furthermore, we use the fact that the outputs of the discriminants may be interpreted probabilistically. The resulting probabilities are used as emission probabilities for Hidden-Markov-Models and tested within an automatic speech recognizer. Finally, the proposed algorithms are evaluated for classification and regression tasks using a large collection of well-known databases and the results are compared with other state-of-the-art learning algorithms.

Diese Dissertation beschäftigt sich mit Trainingsalgorithmen für das maschinelle Lernen und deren Anwendungen für die Klassifikation, die Regression und die automatische Spracherkennung. Es wird im Speziellen das überwachte Lernen betrachtet, das auch als Lernen aus Beispielen bezeichnet wird. Anhand einer kurzen Einführung in die statistische Lerntheorie wird gezeigt, dass sich das überwachte Lernen als ein Funktionsschätzungsproblem formulieren lässt, bei dem sich die Klasse der linearen Funktionen als besonders geeignet für die Generalisierungsfähigkeit der Lösung erweist. Die Leistungsfähigkeit der linearen Funktionen wird zusätzlich durch die Anwendung sogenannter Kernfunktionen gesteigert, die es in effektiver Weise erlauben bestimmte Algorithmen in nichtlineare Räume zu transformieren. Ein wichtiger Vorteil von Kernfunktionen ist, dass die vom gegebenen Algorithmus geschätzten Funktionen in diesem neuen nichtlinearen Raum weiterhin linear sind, so dass die theoretischen Vorteile linearer Funktionen in Bezug auf die Generalisierungsfähigkeit erhalten bleiben. Ein solcher Algorithmus, der sich mit Kernfunktionen nichtlinear transformieren lässt, ist die Diskriminante. Es werden eine Reihe ordnungsrekursiver Algorithmen hergeleitet, die es erlauben, mit vertretbarem Aufwand die durch Kernfunktionen induzierte nichtlineare Version der Diskriminante zu berechnen. Die Algorithmen basieren einerseits auf der Tatsache, dass sich das Diskriminantenproblem als äquivalent zu einer kleinsten-Quadrate-Regression erweist. Andererseits zeigt sich, dass sich die Lösung stark ausdünnen lässt, in dem Sinne dass nur ein kleiner Teil der Trainingsdaten für die Lösung ausgewählt wird. Dies reduziert sowohl den Aufwand beim Training als auch beim Testen erheblich. Darüberhinaus wird die Tatsache genutzt, dass sich die Ausgaben der Diskriminanten probabilistisch interpretieren lassen. Die so gewonnenen Wahrscheinlichkeiten werden als Emissionswahrscheinlichkeiten für Hidden-Markov-Modelle verwendet und innerhalb eines automatischen Spracherkenners getestet. Schließlich werden die vorgestellten Algorithmen für Klassifikations- und Regressionsaufgaben in einer großen Sammlung von Experimenten auf wohlbekannten Datenbasen ausgewertet und mit anderen bewährten Lernalgorithmen verglichen.

Betreuer Wendemuth, Andreas ; Prof.Dr.
Gutachter Neumann, Heiko; Prof.Dr.
Gutachter Omar, Abbas; Prof.Dr.

Upload: 2008-02-01
URL of Theses: http://diglib.uni-magdeburg.de/Dissertationen/2007/ediandelic.pdf

Otto-von-Guericke-Universität Magdeburg , Universitätsbibliothek
Universitätsplatz 2 , D - 39106 Magdeburg