Wirtschaftsinformatik und Maschinelles Lernen, Universität Hildesheim

Veranstaltungen im Sommersemester 2009 / Praktikum Maschinelles Lernen / Themen

Abstract

Themen

Martin Ortmann

Verteilte Hyperparameter-Suche

Beispielanwendungen: medizinische Daten; Multimedia; bibliographische Daten; Text.

Hyperparameter sind die Argumente, die an Lernalgorithmen übergeben werden. Die Wahl der richtigen Parameter für ein gegebenes Lernproblem kann entscheidend für die Qualität des gelernten Modells sein. Allerdings ist es in der Regel nicht möglich, die besten Hyperparameter vor Anwendung des Lernverfahrens zu wissen. In solchen Fällen bleibt uns nichts anderes übrig, als den Algorithmus viele Male mit unterschiedlichen Parametern auszuführen. Das kann, abhängig von der Datenmenge, dem eingesetzten Algorithmus und der Zahl und der Wertebereche der Hyperparameter recht zeitaufwändig sein.

Da die verschiedenen Durchläufe der Lernverfahren unabhängig voneinander sind, ist es naheliegend, die Hyperparameter-Suche auf mehrere Cores oder auch mehrere Computer zu verteilen.

Auswahl mehrerer Klassifikatoren aus Weka.
Implementierung einer generischen Hyperparameter-Suche für die Sun Grid Engine, inklusive eines Visualisierungs-Frontends, für die gewählten Klassifikatoren.
Evaluation auf der hiesigen Cluster-Infrastruktur mit Hilfe unterschiedlicher Anwendungs-Datensätze.

available

String-Kernels für die Textklassifikation

Beispielanwendungen: CRM; Nachrichten; E-Mail; Dokumentenmanagement.

String- und Wortsequenz-Kernels erlauben die direkte Verwendung von Kernel-Methoden wie etwa Support-Vector-Maschinen (SVMs) auf Textdaten, ohne jegliche (oder zumindest mit weniger) Vorverarbeitung.

Die Aufgabe ist die Implementierung eines oder mehrerer String-/Wortsequenz-Kernels für LIBSVM in C++ oder Java, gefolgt von einem Performance-Vergleich mit dem Standardansatz für Textklassifikation mit SVMs (polynomielle Kernels mit bag-of-words-Textrepräsentation). Existierender Code könnte als Ausgangspunkt verwendet werden.

H. Lodhi, C. Saunders, J. Shawe-Taylor, N. Cristianini: Text classification using string kernels. JMLR, 2002
T. Kudo, Y. Matsumoto: Fast methods for kernel-based text analysis. ACL 2003
N. Cancedda, E. Gaussier, C. Goutte, J. M. Renders: Word sequence kernels. JMLR, 2003
C. H. Teo, S. V. N. Vishwanathan: Fast and space efficient string kernels using suffix arrays. ICML 2006

available

Tag-Aware Collaborative Filtering

Beispielanwendungen: Filme; Musik; bibliographic data; Bilder; Bookmarks.

Eine Folksonomie ist ein benutzergeneriertes, flaches and leichtgewichtiges Vokabular, welches die Organisation großer Datenmengen auf Websites erleichtern kann. Kollaboratives Filtern (collaborative filtering, CF) ist eine Schlüsseltechnologie für Recommender-Systeme (RS). Es basiert auf der Annahme, dass Benutzer, die ähnliche Artikel gekauft/angeklickt/bewertet haben, sich auch bei bisher teilweise ungesehenen Artikeln ähnlich verhalten werden. Durch ihren weiten Einsatz im Bereich des Online-Shoppings (siehe zum Beispiel amazon.de), und wegen des Netflix-Preises haben CF und RS in den letzten Jahren durchaus öffentliche Aufmerksamkeit erfahren.

Aufgabe ist die Implementierung mehrerer aktueller CF-Ansätze, die auch in Folksonomien enthaltene Daten zur Berechnung von Empfehlungen einsetzen können, und deren Auswertung mit Hilfe von öffentlich verfügbaren Datensätzen.

available

Umrisserkennung

Beispielanwendungen: historische Bildarchive [Wang 2008]; Video-Analyse [Yankov 2007]; maschinelles Sehen; Robotik.

Die von Eamonn Keogh et al. [Keogh 2006] vorgestellte neue Methode zum Erkennen von Umrissen basiert auf der Umwandlung von in Bildern enthaltenen Umrissen in Zeitreihen.

Die Aufgabe besteht aus drei Teilen:

Literaturübersicht zur Umrisserkennung,
Implementierung der Methode von Keogh et al. und empirischer Vergleich mit dem in OpenCV implementierten shape matching,
Anpassung der Methode für eine spezielle Aufgabe wie die Erkennung von Verkehrsschildern.

E. Keogh, L. Wei, X. Xi, S. H. Lee, M. Vlachos: LB_Keogh supports Exact Indexing of Shapes under Rotation Invariance with Arbitrary Representations and Distance Measures. VLDB, 2006
D. Yankov, E. Keogh, J. Medina, B. Chiu, V. Zordan: Detecting Time Series Motifs Under Uniform Scaling. KDD, 2007
X. Wang, L. Ye, E. Keogh, Ch. Shelton: Annotating historical archives of images. ACM/IEEE-CS joint conference on Digital libraries, 2008

available

Data-Mining-Cup

Beispielanwendungen: Online-Shops; Direktmarketing; Couponing.

Der Data-Mining-Cup ist ein jährlicher Datenanalyse-Wettbewerb für Studenten. Die Teilnehmer erhalten Anwendungsdaten, die Aufgabe ist dann, mit Hilfe dieser Daten Vorhersagen zu machen.

Der diesjährige Wettbewerb beginnt am 15. April und dauert bis 25. Mai, d.h. der Hauptteil der Arbeit in diesem Projekt wird in diesen 40 Tagen stattfinden.

Zeit:	Mo. 14-18 ct
Ort:	C213 Spl.
Vorbesprechung:	Mo., 2. Februar, 16 ct