wir bieten...
Dekobild im Seitenkopf ISMLL
 
Themen für Projekte und Abschlussarbeiten
( methodischer Schwerpunkt, technischer Schwerpunkt)


available
Analyse von Meta-Features bezüglich ihrer Brauchbarkeit zur Distanzbestimmung zwischen Datensätzen

Viele Machine Learning Methoden müssen mit Hyperparametern konfiguriert werden um brauchbare Ergebnisse zu erzielen. Diese Hyperparametersuche übernehmen in der Regel Experten auf dem jeweiligen Fachgebiet oder lässt sich mit Brute-Force-Verfahren (Grid Suche) bestimmen, die allerdings eine sehr lange Zeit zur Bestimmung der besten Hyperparameterkombination benötigen, insbesondere wenn die Anzahl der Hyperparameter hoch ist.

Aktuelle Arbeiten versuchen diesen Prozess zu automatisieren und zu verbessern. Hierfür wird wissen von vergangenen Experimenten auf weitere Experimente übertragen. Die grundlegende Idee ist, dass ähnliche Datensätze ähnliches Verhalten bei Hyperparameterkonfigurationen aufzeigen. Die Ähnlichkeit zwischen Datensätzen wird mittels Meta-Features bestimmt. Dies können grundlegende Eigenschaften sein wie Größe des Datensatzes, aber auch die Performanz von simplen Algorithmen des Maschinellen Lernens.

Kontakt: Martin Wistuba
available
Empirischer Vergleich von Zugvorhersagealgorithmen für Go zu Ranking-Algorithmen

Go ist ein Brettspiel für zwei Spieler mit Ursprung in Asien. Die Spielregeln sind recht einfach, dennoch besitzt das Spiel eine sehr hohe Komplexität und macht es daher bei seinen Fans sehr beliebt. Go ist aber auch interessant für den Bereich künstliche Intelligenz. Für Schach gibt es schon seit einiger Zeit Programme, die jeden Menschen mühelos besiegen. Go-Programme sind aber noch weit von der Spielstärke von guten menschlichen Spielern entfernt. Die Gründe hierfür sind die hohe Anzahl von möglichen Zügen und der dementsprechend große Suchraum kombiniert mit der Tatsache, dass Züge wichtige Langzeiteffekte haben können. Daher wurde bisher noch keine gute Heuristik gefunden, um eine gewisse Brettsituation ausreichend zu bewerten. Dies macht den Einsatz von Techniken, die bei Schach zum Erfolg führten, nicht effizient möglich.

Starke aktuelle Go-Programme nutzen eine Kombination aus Monte Carlo Tree Search (ein heuristischer Suchalgorithmus) und Zugvorhersagealgorithmen, die den Suchraum einschränken bzw. die Suche lenken. Bisher wurden zur Zugvorhersage immer speziell entworfene Algorithmen genutzt. Es ist völlig unklar wie gut diese sich im Vergleich zu Ranking Algorithmen, die in eineren Bereichen zum Einsatz kommen, verhalten. Ziel dieser Arbeit ist einerseits das Erstellen eines Werkzeugs, das aufgezeichnete Go-Spiele in ein Format umwandelt, sodass es von Ranking Algorithmen gelesen werden kann. Des Weiteren soll die Frage beantwortet werden, ob spezielle Zugvorhersagealgorithmen für Go ihre Daseinsberechtigung haben.

Kontakt: Martin Wistuba
available
Recommender for Dating portals

Online dating has mostly has been about just wanting to find "the one". For many users, the idea of sorting through hundreds of thousands of online dating profiles to find potential matches seems daunting. Instead, it would be great to have an automated system that recommends profiles of other users that a user will like. One way to accomplish this is to build a recommendation system. For example one that predicts the profiles a user is likely to enjoy based upon the user's past ratings of other profiles. The success of recommendation systems ,which are just as applicable to products as people, says much about the ability of computers to predict the more fundamental attractions.

Kontakt: Lydia Voß
Johann Witowski
Continuous Integration und Unit-Tests für Empfehlungssysteme

Testgetriebene Entwicklung unter Einsatz von Unit-Tests und kontinuierlicher Integration ist eine der Säulen der agilen Softwareentwicklung.

Ziel dieser Arbeit ist das Konzipieren und Aufsetzen einer Test-Umgebung für eine am ISMLL entwickelte Empfehlungssystem-Bibliothek. Sie umfasst folgende Teilaufgaben:

  • Vergleich von Tools zur kontinuierlichen Integration für Mono/C# (z.B. CruiseControl.NET)
  • Auswahl der für die Aufgabe geeigneten Werkzeuge
  • Konzeption von Integrationstests anhand einer vorgegebenen Spezifikation
  • Anpassen und Erweitern der vorhandenen Unit-Tests
  • Aufsetzen der Testumgebung
  • Voraussetzungen:

  • Programmierkenntnisse in C# oder Java
  • etwas Erfahrung mit Unit-Tests
  • Wissen oder der vorherige Besuch von Veranstaltungen im Bereich Maschinelles Lernen/Empfehlungssysteme sind nicht erforderlich.
  • available
    Communication Efficient Distributed Classification in Peer-to-Peer Networks

    Mining patterns from large-scale distributed networks, such as Peer-to-Peer (P2P), is a challenging task, because centralization of data is not feasible. The goal is to develop mining algorithms that are communication efficient, scalable, asynchronous, and robust to peer dynamism, which achieve accuracy as close as possible to centralized ones. In this project, we aim to implement classification models that can be learned locally on each peer in a distributed network setting, and are able to produce a very reduced or light weight representative local knowledge to be shared with their direct neighbors. Desired output of such an experiment should be one that maxmizes the prediction accuracy on each peer (with the exchange of knowledge among neighbors) while keeping the communication overhead to be the least. Proposed learning technique: Relevance Vector Machines (RVM) described in following paper. Sparse Bayesian Learning and the Relevance Vector Machine.

    Kontakt: Umer Khan
    vergeben
    Finding Anomalities in Time Series

    Time series refer to streams of data ordered in a time based sequence. Such data is observed in plenty of real world domains as statistics, signal, processing, medical measurements (ECG,EEG), etc ... Analysis of time series has attracted considerable interest, still various aspects remain under research focus. One of the most important challenges is to identify anomalies in the series, which denote surprising or interesting patterns. An example of anomaly detection could be detecting anomaly subsequences in the heart signal of an ECG time series plot.

    Your task is to implement the referenced research paper which presents a technique on detecting surprising patterns. In the end a software which detects and displays anomalies is expected.

    Reference: Eamonn J. Keogh, Stefano Lonardi, Bill Yuan-chi Chiu: Finding surprising patterns in a time series database in linear time and space. KDD 2002: 550-556

    Bei Interesse an anderen Themen fragen Sie bitte nach.

    Abgeschlossene Bachelorarbeiten an der Universität Hildesheim
    Abgeschlossene Bachelor- und Studienarbeiten an der Universität Freiburg