Lehrende: Dr. Fabian Panse
Veranstaltungsart: Projekt
Anzeige im Stundenplan: PJ Datenintegr.
Semesterwochenstunden: 6
Credits: 9,0
Unterrichtssprache: Deutsch
Min. | Max. Teilnehmerzahl: - | 15
Anmeldegruppe: Anmeldegruppe Projekte
Kommentare/ Inhalte: Durch die immer weiter voranschreitende Digitalisierung vieler Lebensbereiche gibt es immer mehr Datenquellen, deren Integration zu neuen Erkenntnisgewinnen führen kann. Eine solche Integration umfasst viele Teilschritte, die vom Abgleich mehrerer Datenschemata über die Datenreinigung bis hin zum Erkennen und Entfernen von Duplikaten (Tupel, welche dieselbe Realwelt-Entität beschreiben) reichen. Um qualitativ hochwertige Integrationsprozesse zu ermöglichen, Bedarf es umfangreicher Evaluierungen verschiedenster Algorithmen. Eine solche Evaluierung erfordert wiederum einen Testdatensatz, der eine Ground Truth beinhaltet, die in vielen Anwendungsfällen nur mit großem Aufwand zu erlangen ist. Privacy-Aspekte führen zudem dazu, dass viele Daten für solche Evaluierungen nicht verwendet werden dürfen. Zu guter Letzt liegt vielen Algorithmen ein supervised Machine Learning-Ansatz zu Grunde, so dass gelabelte Daten nicht nur zur Qualitätsbewertung, sondern auch zum Trainieren der einzelnen Algorithmen benötigt werden. Die Qualität des erlernten Modells hängt dabei maßgeblich von der Qualität und Eignung der zum Training verwendeten Daten ab. Die Generierung realistischer geeigneter Trainings- und Testdaten ist daher eine wichtige Aufgabe in Industrie und Forschung. In diesem Projekt sollen in Gruppen verschiedene Ansätze zur Erstellung realistischer Trainings- und Testdatensätze für Datenintegrationsalgorithmen erarbeitet werden. Mögliche Themen wären:
Lernziel: Erwerb eines fundierten Überblicks über das Training und die Evaluierung von Datenintegrationsalgorithmen, sowie diverser Möglichkeiten zur Erzeugung und Bewertung geeigneter Trainings- und Testdaten.
Vorgehen: Das Projekt wird in Gruppen durchgeführt. Zu Beginn werden die Teilnehmer durch ein bis zwei Vorträge der Kursleiter in die Thematik der Datenintegration und der Generierung gelabelter Datensätze eingeführt. Anschließend macht sich jede Gruppe selbstständig mit der - für das von ihnen gewählte Projektvorhaben - notwendige Literatur vertraut, entwickelt einen neuartigen Ansatz zur Realisierung ihres Vorhabens und implementiert diesen in einem Prototypen, dessen Funktionsweise in einer Abschlusspräsentation demonstriert werden soll. Zusätzlich schreibt jede Gruppe einen Projektbericht, der die wichtigsten Informationen ihres Projektvorhabens zusammenfasst und die erzielten Ergebnisse beschreibt, interpretiert und diskutiert. Je nach Bedarf finden gruppenübergreifende Treffen mit den Kursleitern wöchentlich oder zweiwöchentlich statt. In diesen Treffen skizziert jede Gruppe jeweils kurz den aktuellen Stand ihres Vorhabens, bevor allgemeine Probleme diskutiert werden können. Unter Umständen ist es hilfreich Zwischenpräsentationen durchzuführen.
Literatur: Wird in der Moodle Gruppe der Veranstaltung bekannt gegeben.