Data Engineering

Data Engineering

SWS 4
ECTS 5
Sprache(n) Deutsch
Lehrform SU mit Praktikum
Angebot nach Ankündigung
Aufwand

30 Präsenzstunden Vorlesung, 30 Präsenzstunden Praktikum, 45 Stunden Vor-/Nachbereitung des Praktikums, 45 Stunden Nachbereitung der Vorlesung und Prüfungsvorbereitung

Voraussetzungen

Grundlegende Programmierkenntnisse auf Bachelor-Niveau. Grundlagen der Datenaufbereitung und Datenhaltung auf Bachelor-Niveau.

Ziele

Lernziele

Die Studierenden erwerben die Fähigkeit,

  • einen geeigneten Data Engineering Workflow zu konzipieren und praktisch als Data Pipeline umzusetzen sowie
  • die gängigen Herausforderungen bei der Datenaufbereitung und -bereitstellung zu erkennen und kompetent mit diesen umzugehen.

Fach- & Methodenkompetenzen

Die Studierenden

  • beschreiben und verstehen grundlegende Prinzipien und Best Practices des Data Engineerings und können diese praktisch anwenden.
  • kennen und verstehen verschiedener Methoden zum Erkennen und Beheben bzw. Vermeiden gängiger Probleme im Data Engineering und können diese praktisch anwenden.
  • können geeignete Komponenten und Ansätze zum Aufbau skalierbarer Data Pipelines in verschiedenen Anwendungsszenarien auswählen, praktisch umsetzen und beurteilen.

Überfachliche Kompetenzen

Die Studierenden

  • bearbeiten praktische Aufgabenstellungen und Case Studies eigenständig in Teams.
  • erwerben die Fähigkeit komplexe Zusammenhänge nachvollziehbar und überprüfbar aufzubereiten und darzustellen.
  • sind in der Lage, die Nachhaltigkeit der Lösungen und ethische Aspekte von Anfang an aus diversen Perspektiven mit zu berücksichtigen.
Inhalt

Daten sind in sämtlichen Analyse- und Modellierungsfragestellungen essentiell. Aufgabe des Data Engineerings und damit Thema dieses Kurses ist es, ausreichend Daten zur richtigen Zeit und in der bestmöglichen Qualität zur Verfügung zu stellen.

  • Grundlegende Data Engineering Prinzipien
  • Dimensionen der Datenqualität, inkl. Analyse, Monitoring und Ansätzen zum Sicherstellen und Verbessern
  • Ausreißeranalyse
  • Feature Engineering
  • Feature Selection
  • Erkennen von Data Drift
  • Erkennen und Beheben von Bias in Datensätzen
  • Batch vs. Stream Processing
  • Struktur und Aufbau von Data Pipelines
  • Best Practices guter Data Architecture
  • Modern Data Stack
  • Datenversionierungskonzepte (z.B. DVC)

Im Praktikum werden anhand von konkreten Aufgaben, Beispielen und Case Studies Verständnis und praktische Anwendung bzw. Umsetzung geübt. Die Studierenden verwenden dazu auch eine entsprechende Programmiersprache (z.B. R, Python oder SQL) und geeignete Services bzw. Tools in Cloud-Umgebungen.

Medien und Methoden

Tafel, Folien oder Beamer, Analytics-Software (z.B. R und Python), Repositories mit Versionsverwaltung (z.B. Git) und bei Bedarf Nutzung entsprechender Cloud-Umgebungen

Literatur

Literaturliste wird zu Beginn der Veranstaltung bekannt gegeben.

Beispiel-Literatur:

  • Reis, Housley (2022): Fundamentals of Data Engineering, O‘Reilly
  • Crickard (2020): Data Engineering with Python, O‘Reilly
Zuordnungen Curricula
SPO Fachgruppe Code ab Semester Prüfungsleistungen

DA Version 2023

DA: Anwendungen

IF-DA-M-A08

1

Modularbeit