wir bieten...
Dekobild im Seitenkopf ISMLL
 
Veranstaltungen im Sommersemester 2009 / Praktikum Maschinelles Lernen / Themen
Themen
Martin Ortmann
Verteilte Hyperparameter-Suche
Beispielanwendungen: medizinische Daten; Multimedia; bibliographische Daten; Text.

Hyperparameter sind die Argumente, die an Lernalgorithmen übergeben werden. Die Wahl der richtigen Parameter für ein gegebenes Lernproblem kann entscheidend für die Qualität des gelernten Modells sein. Allerdings ist es in der Regel nicht möglich, die besten Hyperparameter vor Anwendung des Lernverfahrens zu wissen. In solchen Fällen bleibt uns nichts anderes übrig, als den Algorithmus viele Male mit unterschiedlichen Parametern auszuführen. Das kann, abhängig von der Datenmenge, dem eingesetzten Algorithmus und der Zahl und der Wertebereche der Hyperparameter recht zeitaufwändig sein.

Da die verschiedenen Durchläufe der Lernverfahren unabhängig voneinander sind, ist es naheliegend, die Hyperparameter-Suche auf mehrere Cores oder auch mehrere Computer zu verteilen.

  1. Auswahl mehrerer Klassifikatoren aus Weka.
  2. Implementierung einer generischen Hyperparameter-Suche für die Sun Grid Engine, inklusive eines Visualisierungs-Frontends, für die gewählten Klassifikatoren.
  3. Evaluation auf der hiesigen Cluster-Infrastruktur mit Hilfe unterschiedlicher Anwendungs-Datensätze.

available
String-Kernels für die Textklassifikation
Beispielanwendungen: CRM; Nachrichten; E-Mail; Dokumentenmanagement.

String- und Wortsequenz-Kernels erlauben die direkte Verwendung von Kernel-Methoden wie etwa Support-Vector-Maschinen (SVMs) auf Textdaten, ohne jegliche (oder zumindest mit weniger) Vorverarbeitung.

Die Aufgabe ist die Implementierung eines oder mehrerer String-/Wortsequenz-Kernels für LIBSVM in C++ oder Java, gefolgt von einem Performance-Vergleich mit dem Standardansatz für Textklassifikation mit SVMs (polynomielle Kernels mit bag-of-words-Textrepräsentation). Existierender Code könnte als Ausgangspunkt verwendet werden.

available
Tag-Aware Collaborative Filtering
Beispielanwendungen: Filme; Musik; bibliographic data; Bilder; Bookmarks.

Eine Folksonomie ist ein benutzergeneriertes, flaches and leichtgewichtiges Vokabular, welches die Organisation großer Datenmengen auf Websites erleichtern kann. Kollaboratives Filtern (collaborative filtering, CF) ist eine Schlüsseltechnologie für Recommender-Systeme (RS). Es basiert auf der Annahme, dass Benutzer, die ähnliche Artikel gekauft/angeklickt/bewertet haben, sich auch bei bisher teilweise ungesehenen Artikeln ähnlich verhalten werden. Durch ihren weiten Einsatz im Bereich des Online-Shoppings (siehe zum Beispiel amazon.de), und wegen des Netflix-Preises haben CF und RS in den letzten Jahren durchaus öffentliche Aufmerksamkeit erfahren.

Aufgabe ist die Implementierung mehrerer aktueller CF-Ansätze, die auch in Folksonomien enthaltene Daten zur Berechnung von Empfehlungen einsetzen können, und deren Auswertung mit Hilfe von öffentlich verfügbaren Datensätzen.

available
Umrisserkennung
Beispielanwendungen: historische Bildarchive [Wang 2008]; Video-Analyse [Yankov 2007]; maschinelles Sehen; Robotik.

Die von Eamonn Keogh et al. [Keogh 2006] vorgestellte neue Methode zum Erkennen von Umrissen basiert auf der Umwandlung von in Bildern enthaltenen Umrissen in Zeitreihen.

Die Aufgabe besteht aus drei Teilen:

  1. Literaturübersicht zur Umrisserkennung,
  2. Implementierung der Methode von Keogh et al. und empirischer Vergleich mit dem in OpenCV implementierten shape matching,
  3. Anpassung der Methode für eine spezielle Aufgabe wie die Erkennung von Verkehrsschildern.

available
Data-Mining-Cup
Beispielanwendungen: Online-Shops; Direktmarketing; Couponing.

Der Data-Mining-Cup ist ein jährlicher Datenanalyse-Wettbewerb für Studenten. Die Teilnehmer erhalten Anwendungsdaten, die Aufgabe ist dann, mit Hilfe dieser Daten Vorhersagen zu machen.

Der diesjährige Wettbewerb beginnt am 15. April und dauert bis 25. Mai, d.h. der Hauptteil der Arbeit in diesem Projekt wird in diesen 40 Tagen stattfinden.