SWS |
4 |
ECTS |
5 |
Sprache(n) |
Deutsch
(Standard)
Englisch
|
Lehrform |
SU mit Praktikum |
Angebot |
in jedem Sommersemester |
Aufwand |
30 Präsenzstunden Vorlesung, 30 Präsenzstunden Praktikum, 45 Stunden Vor-/Nachbereitung des Praktikums, 45 Stunden Nachbereitung der Vorlesung und Prüfungsvorbereitung |
Voraussetzungen |
Kenntnisse in Linearer Algebra, Analysis, Wahrscheinlichkeitsrechnung und grundlegende Programmierkenntnisse (Python) |
Ziele |
Lernziele, Fach- und Methodenkompetenz:
Die Studierenden
- können ein Data-Science Projekt vollumfänglich
bearbeiten. Dazu zählen:
- mit Stakeholdern abstimmen,
- Daten beschaffen, aufbereiten und visualisieren (mit Verweis auf das dezidierte Modul "Datenaufbereitung und Visualisierung"),
- inhaltliche Fragestellung formalisieren,
- geeignete Modell-Pipeline aufsetzten (inkl. Datentransformation, Hyperparameter-Tuning, Gütemaße und Benchmarking),
- Ergebnisse aufbereiten, visualisieren, interpretieren und präsentieren.
- Modell für Produktion vorbereiten (Einführung in ML-Ops)
- sind in der Lage ein geeignetes Software-Tool (z.B. Python oder R) zu benutzen und fremden Code zu analysieren und bewerten (Nachvollziehbarkeit und Reproduzierbarkeit).
- können mit verschiedenen Daten-Situationen umgehen.
- können Auto-ML-Methoden anwenden
- können Code nach Best Practices schreiben inklusive Versionierung
- können Risiken und Grenzen von Machine Learning Methoden beschreiben und abschätzen
Überfachliche Kompetenzen
- Teamarbeit: Die Studierenden bearbeiten Problemstellungen in Kleingruppen.
- Kritisches Denken: Die Studierenden sind in der Lage Resultate nachvollziehbar und überprüfbar aufzubereiten und darzustellen.
- Kommunikation: Die Studierenden sind in der Lage Resultate nachvollziehbar und überprüfbar aufzubereiten und darzustellen
|
Inhalt |
- Typische ML-Pipelines als Baukastenprinzip:
- Transformation von Daten (inklusive Encoding und Embedding)
- Modellwahl
- Hyperparameter-Tuning: nested cross-validation, grid search, random search; feature selection
- Gütemaße für Regression und Klassifikation unter anderem für Modellvergleich bzw. Modellsensitivität; Benchmarking
- Modellinterpretation: feature importance, Interpretation der Parameter; grafische Aufbereitung der Ergebnisse
- Einführung in ML-Ops, z.B. Data Cards und Model Cards, Versionierung von Code und Modellen, Notebooks vs. Scripts
- Bearbeitung von Case Studies mit verschiedenen Datensituationen, gegebenenfalls mit Auto-ML-Methoden. Beispiele hierfür sind (je mindestens ein supervised und ein unsupervised Fall):
- multivariate Daten (n>p),
- hochdimensionale Daten (n~p, n<p),
- Daten mit zeitlicher Komponente (z.B. Signal-Daten, Zeitreihen),
- Natural-Language-Processing-Daten (NLP),
- Tracking-Daten
- Bild-, Audio- und Videodaten
|
Medien und Methoden |
Tafel / Whiteboard, Beamer, Programmiersprachen (z.B. Python oder R), Repositories mit Versionsverwaltung (z.B. git) |
Literatur |
Literaturliste wird zu Beginn der Vorlesung bekannt gegeben.
Beispiel-Literatur:
- James, Witten, Hastie, Tibshirani, Taylor (2023), An Introduction to Statistical Learning: With Applications in Python, Springer.
- Geron (2019): Hands-on Machine Learning with Scikit-Learn, Keras and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems, O'Reilly Media
|
Zuordnungen Curricula |
SPO |
Fachgruppe |
Code |
ab Semester |
Prüfungsleistungen |
|