Impressum Kontaktperson Drucken Zum Ende der Seite

UHH > STiNE - Das Studieninfonetz

Mobile Version Kommunikation

English

Anmelden Passwort vergessen

64-191 Projekt Generierung von realistischen Trainings- und Testdaten für Datenintegrationsalgorithmen

Veranstaltungsdetails

Lehrende: Dr. Fabian Panse Veranstaltungsart: Projekt Anzeige im Stundenplan: PJ Datenintegr. Semesterwochenstunden: 6 Credits: 9,0 Unterrichtssprache: Deutsch Min. \| Max. Teilnehmerzahl: - \| 15 Anmeldegruppe: Anmeldegruppe Projekte Kommentare/ Inhalte: Durch die immer weiter voranschreitende Digitalisierung vieler Lebensbereiche gibt es immer mehr Datenquellen, deren Integration zu neuen Erkenntnisgewinnen führen kann. Eine solche Integration umfasst viele Teilschritte, die vom Abgleich mehrerer Datenschemata über die Datenreinigung bis hin zum Erkennen und Entfernen von Duplikaten (Tupel, welche dieselbe Realwelt-Entität beschreiben) reichen. Um qualitativ hochwertige Integrationsprozesse zu ermöglichen, Bedarf es umfangreicher Evaluierungen verschiedenster Algorithmen. Eine solche Evaluierung erfordert wiederum einen Testdatensatz, der eine Ground Truth beinhaltet, die in vielen Anwendungsfällen nur mit großem Aufwand zu erlangen ist. Privacy-Aspekte führen zudem dazu, dass viele Daten für solche Evaluierungen nicht verwendet werden dürfen. Zu guter Letzt liegt vielen Algorithmen ein supervised Machine Learning-Ansatz zu Grunde, so dass gelabelte Daten nicht nur zur Qualitätsbewertung, sondern auch zum Trainieren der einzelnen Algorithmen benötigt werden. Die Qualität des erlernten Modells hängt dabei maßgeblich von der Qualität und Eignung der zum Training verwendeten Daten ab. Die Generierung realistischer geeigneter Trainings- und Testdaten ist daher eine wichtige Aufgabe in Industrie und Forschung. In diesem Projekt sollen in Gruppen verschiedene Ansätze zur Erstellung realistischer Trainings- und Testdatensätze für Datenintegrationsalgorithmen erarbeitet werden. Mögliche Themen wären: Entwicklung einer gamifizierten Webapplikation, mit deren Hilfe sich gelabelte Daten erheben lassen. Dies könnte z.B. ein Quiz sein, bei dem Nutzer Fragen beantworten oder Zusammenhänge zwischen Tupeln zuordnen müssen. Entwicklung eines Verfahrens zur Synthese künstlicher Daten. Für einen gegebenen Anwendungsdatensatz soll hier ein strukturell und statistisch möglichst ähnlicher Datensatz erzeugt werden, der einerseits keine Rückschlüsse auf sensible Daten zulässt, andererseits aber geeignet ist, Algorithmen für den realen Datensatz zu trainieren bzw. evaluieren. Als Methoden können hier sowohl regelbasierte Ansätze als auch Methoden des Deep Learning (z.B. Generative Adversarial Networks) zum Einsatz kommen. Entwicklung eines Verfahrens zum Einfügen von Duplikaten und Fehlern in einen gegebenen Datensatz. Das Ziel ist hierbei einerseits möglichst flexibel konfigurierbar zu sein und andererseits möglichst realistische Fehlermuster zu ermöglichen. Hier können ebenfalls regelbasierte Ansätze und Machine Learning-Methoden zum Einsatz kommen. Entwicklung eines Verfahrens zum Finden eines repräsentativen Testdatensatzes für einen gegebenen Anwendungsfall. Als Eingabe sind hier ein ungelabelter Anwendungsdatensatz und ein Repository an gelabelten Testdatensätzen gegeben. Das Ziel ist es, einen Testdatensatz aus dem Repository auszuwählen, der dem Anwendungsdatensatz möglichst ähnlich ist, so dass sich die mit dem Testdatensatz erzielten Ergebnisse auf den Anwendungsdatensatz übertragen lassen. Entwicklung von Data Profiling-Algorithmen, welche Attributdomänen, Abhängigkeiten (z.B. funktionale Abhängigkeiten) oder Constraints (z.B. Unique) aus einem Datensatz extrahieren. Diese helfen uns regelbasierte Verfahren zur Datensynthese zu erstellen, aber auch die Ähnlichkeit zweier Datensätze zu bestimmen (z.B. um die Eignung eines synthetisierten Datensatzes zu bewerten). Entwicklung von Error Profiling-Algorithmen, welche Fehlermuster aus einem Datensatz extrahieren und uns so einen Vergleich zwischen realen verschmutzten Daten und künstlich verschmutzten Daten ermöglichen. Lernziel: Erwerb eines fundierten Überblicks über das Training und die Evaluierung von Datenintegrationsalgorithmen, sowie diverser Möglichkeiten zur Erzeugung und Bewertung geeigneter Trainings- und Testdaten. Aktuelle Forschung verstehen und in die Praxis überführen Algorithmen zur Datenintegration Methoden zur Generierung und Auswertung von Trainings- und Testdaten Software-Entwicklung Arbeit im Team Einsatz von Projektmanagement- und Kollaborationstools Vorgehen: Das Projekt wird in Gruppen durchgeführt. Zu Beginn werden die Teilnehmer durch ein bis zwei Vorträge der Kursleiter in die Thematik der Datenintegration und der Generierung gelabelter Datensätze eingeführt. Anschließend macht sich jede Gruppe selbstständig mit der - für das von ihnen gewählte Projektvorhaben - notwendige Literatur vertraut, entwickelt einen neuartigen Ansatz zur Realisierung ihres Vorhabens und implementiert diesen in einem Prototypen, dessen Funktionsweise in einer Abschlusspräsentation demonstriert werden soll. Zusätzlich schreibt jede Gruppe einen Projektbericht, der die wichtigsten Informationen ihres Projektvorhabens zusammenfasst und die erzielten Ergebnisse beschreibt, interpretiert und diskutiert. Je nach Bedarf finden gruppenübergreifende Treffen mit den Kursleitern wöchentlich oder zweiwöchentlich statt. In diesen Treffen skizziert jede Gruppe jeweils kurz den aktuellen Stand ihres Vorhabens, bevor allgemeine Probleme diskutiert werden können. Unter Umständen ist es hilfreich Zwischenpräsentationen durchzuführen. Literatur: Wird in der Moodle Gruppe der Veranstaltung bekannt gegeben.

Termine
	Datum	Von	Bis	Raum	Lehrende
1	Do, 20. Okt. 2022	14:00	19:00	G-102	Dr. Fabian Panse
2	Do, 27. Okt. 2022	14:00	19:00	G-102	Dr. Fabian Panse
3	Do, 3. Nov. 2022	14:00	19:00	G-102	Dr. Fabian Panse
4	Do, 10. Nov. 2022	14:00	19:00	G-102	Dr. Fabian Panse
5	Do, 17. Nov. 2022	14:00	19:00	G-102	Dr. Fabian Panse
6	Do, 24. Nov. 2022	14:00	19:00	G-102	Dr. Fabian Panse
7	Do, 1. Dez. 2022	14:00	19:00	G-102	Dr. Fabian Panse
8	Do, 8. Dez. 2022	14:00	19:00	G-102	Dr. Fabian Panse
9	Do, 15. Dez. 2022	14:00	19:00	G-102	Dr. Fabian Panse
10	Do, 22. Dez. 2022	14:00	19:00	G-102	Dr. Fabian Panse
11	Do, 12. Jan. 2023	14:00	19:00	G-102	Dr. Fabian Panse
12	Do, 19. Jan. 2023	14:00	19:00	G-102	Dr. Fabian Panse
13	Do, 26. Jan. 2023	14:00	19:00	G-102	Dr. Fabian Panse
14	Do, 2. Feb. 2023	14:00	19:00	G-102	Dr. Fabian Panse

Prüfungen im Rahmen von Modulen
Modul (Startsemester)/ Kurs	Leistungskombination	Prüfung	Datum	Lehrende	Bestehenspflicht
InfB-Proj Projekt (WiSe 21/22) / InfB_Proj_Projekt Projekt Generierung von realistischen Trainings- und Testdaten für Datenintegrationsalgorithmen	Projektabschluss	3 Projektabschluss	ohne Termin	Dr. Fabian Panse	Ja
InfB-Proj Projekt (WiSe 22/23) / InfB_Proj_Projekt Projekt Generierung von realistischen Trainings- und Testdaten für Datenintegrationsalgorithmen	Projektabschluss	1 Projektabschluss	ohne Termin	Dr. Fabian Panse	Ja
InfB-Proj Projekt (SoSe 21) / InfB_Proj_Projekt Projekt Generierung von realistischen Trainings- und Testdaten für Datenintegrationsalgorithmen	Projektabschluss	4 Projektabschluss	ohne Termin	Dr. Fabian Panse	Ja
InfB-Proj Projekt (WiSe 20/21) / InfB_Proj_Projekt Projekt Generierung von realistischen Trainings- und Testdaten für Datenintegrationsalgorithmen	Projektabschluss	5 Projektabschluss	ohne Termin	Dr. Fabian Panse	Ja
InfB-Proj Projekt (SoSe 22) / InfB_Proj_Projekt Projekt Generierung von realistischen Trainings- und Testdaten für Datenintegrationsalgorithmen	Projektabschluss	2 Projektabschluss	ohne Termin	Dr. Fabian Panse	Ja
InfB-Proj/LA Projekt (WiSe 22/23) / InfB_PJ_13.1 Projekt Generierung von realistischen Trainings- und Testdaten für Datenintegrationsalgorithmen	Projektabschluss	1 Projektabschluss	ohne Termin	Dr. Fabian Panse	Ja
InfB-Proj/LA-1UF Projekt (WiSe 22/23) / InfB_PJ_13.1 Projekt Generierung von realistischen Trainings- und Testdaten für Datenintegrationsalgorithmen	Projektabschluss	1 Projektabschluss	ohne Termin	Dr. Fabian Panse	Ja
InfB-Proj/LA-1UF Projekt (SoSe 22) / InfB_PJ_13.1 Projekt Generierung von realistischen Trainings- und Testdaten für Datenintegrationsalgorithmen	Projektabschluss	2 Projektabschluss	ohne Termin	Dr. Fabian Panse	Ja
InfB-WI-Proj/1 Projekt (einsemestrig) (WiSe 20/21) / WiInf-BAProjekt Projekt Generierung von realistischen Trainings- und Testdaten für Datenintegrationsalgorithmen	Projektabschluss	5 Projektabschluss	ohne Termin	Dr. Fabian Panse	Ja
InfB-WI-Proj/1 Projekt (einsemestrig) (WiSe 21/22) / WiInf-BAProjekt Projekt Generierung von realistischen Trainings- und Testdaten für Datenintegrationsalgorithmen	Projektabschluss	3 Projektabschluss	ohne Termin	Dr. Fabian Panse	Ja
InfB-WI-Proj/1 Projekt (einsemestrig) (SoSe 21) / WiInf-BAProjekt Projekt Generierung von realistischen Trainings- und Testdaten für Datenintegrationsalgorithmen	Projektabschluss	4 Projektabschluss	ohne Termin	Dr. Fabian Panse	Ja
InfB-WI-Proj/1 Projekt (einsemestrig) (WiSe 22/23) / WiInf-BAProjekt Projekt Generierung von realistischen Trainings- und Testdaten für Datenintegrationsalgorithmen	Projektabschluss	1 Projektabschluss	ohne Termin	Dr. Fabian Panse	Ja
InfB-WI-Proj/1 Projekt (einsemestrig) (SoSe 22) / WiInf-BAProjekt Projekt Generierung von realistischen Trainings- und Testdaten für Datenintegrationsalgorithmen	Projektabschluss	2 Projektabschluss	ohne Termin	Dr. Fabian Panse	Ja
InfM-Proj/LA Projekt für Lehramtsstudierende (M.Ed.) (WiSe 22/23) / InfB_PJ_13.1 Projekt Generierung von realistischen Trainings- und Testdaten für Datenintegrationsalgorithmen	Projektabschluss	1 Projektabschluss	ohne Termin	Dr. Fabian Panse	Ja

Übersicht der Kurstermine

1
2
3
4
5
6
7
8
9
10
11
12
13
14

Lehrende

Dr. Fabian Panse

Impressum Kontaktperson Drucken Datenschutzerklärung Mobile Version Barrierefreiheit