Big Data Analytics
Fakultät für Informatik und Mathematik ©
Name Big Data Analytics
Verantwortlich Prof. Dr. David Spieler
SWS 4
ECTS 5
Sprache(n) Deutsch
Englisch
Lehrform SU mit Praktikum
Angebot nach Ankündigung
Aufwand

Aufwand 30 Präsenzstunden Vorlesung, 30 Präsenzstunden Praktikum, 45 Stunden Vor-/Nachbereitung des Praktikums, 45 Stunden Nachbereitung der Vorlesung und Prüfungsvorbereitung

Voraussetzungen

Voraussetzungen fortgeschrittene Programmierkenntnisse, grundlegende Kenntnisse Datennetze

Ziele

Kennenlernen und Verstehen theoretischer Prinzipien der Speicherung (HDFS), Indizierung und Analyse großer Datenmengen in Clusterumgebungen als auch Anwendung dieser Prinzipien in der Praxis. Erlernen der Grundlagen der Programmiersprache Scala mit dem Rechenframework Apache Spark. Fähigkeiten, Auswertungen auf großen Datenmengen zu analysieren, konzipieren, effizient umzusetzen und zu evaluieren.

Inhalt

Viele Anwendungen aus dem Bereich des maschinellen Lernens basieren mittlerweile auf der Analyse riesiger Datenmengen, welche aufgrund der enormen erforderlichen Speicher- und Rechenkapazität nicht mehr von Einzelrechnern durchgeführt werden kann. Hintergrund von Methoden und Technologien aus dem Bereich Big Data Analytics ist es, die Datenhaltung und die Berechnung auf Rechnerverbundsysteme (Cluster) zu verteilen.

In diesem Kurs werden zunächst die theoretischen Grundlagen, wie verteilte Dateisysteme, verteilte Datensätze und die verteilte Berechnung behandelt. Anschließend werden aktuelle Implementierungen, wie Apache Hadoop/HDFS und Apache Spark besprochen. Ebenso wird eine grundlegende Einführung in die, auf der Java Virtual Machine aufbauende, funktionale Programmiersprache Scala gegeben. Es folgen Themen wie Datenaufbereitung für die effiziente Prozessierung, Programmierung mit MapReduce, Programmierung in Apache Spark, Analysen in nahezu Echtzeit mit Hilfe von Indizierung, Visualisierung durch Dashboards und die verteilte Umsetzung ausgewählter Algorithmen aus dem Bereich des maschinellen Lernens.

Medien und Methoden

Beamer, Tafel, Jupyter/Zeppelin Notebooks, Dashboards (ElasticSearch, Kibana)

Literatur
  • White, Tom (2017). Hadoop: The Definitive Guide. O'Reilly and Associates.
  • Chambers, Bill & Zaharu, Matei (2018). Spark: The Definitive Guide: Big data processing made simple. O'Reilly UK Ltd.
  • Wills, Josh & Laserson, Uri & Owen, Sean & Ryza, Sandy (2017). Advanced Analytics with Spark: Patterns for Learning from Data at Scale. O'Reilly UK Ltd.
  • Gormley, Clinton & Tong, Zachary (2015). Elasticsearch: The Definitive Guide. O'Reilly and Associates.
  • Schwartz, Jason (2014). Learning Scala: Practical Functional Programming for the JVM. O'Reilly and Associates.
Zuordnungen Curricula
SPO Fachgruppe Code ab Semester Prüfungsleistungen
IG Version 2010 SWE: Fachliche u. persönliche Profilbildung IG-123456 1 benotete Studienarbeit (40%)
benotete schriftliche Prüfung 90 Minuten (60%)
IG Version 2010 EC: Fachliche u. persönliche Profilbildung IG-12345 1 benotete Studienarbeit (40%)
benotete schriftliche Prüfung 90 Minuten (60%)
IG Version 2010 VCML: Schwerpunkt Vertiefung IG-1234 1 benotete Studienarbeit (40%)
benotete schriftliche Prüfung 90 Minuten (60%)
IG Version 2019 SWE: Fachliche u. persönliche Profilbildung IG-12345 1 Bonus
benotete schriftliche Prüfung 90 Minuten oder benotete mündliche Prüfung
IG Version 2019 EC: Fachliche u. persönliche Profilbildung IG-12345 1 Bonus
benotete schriftliche Prüfung 90 Minuten oder benotete mündliche Prüfung
IG Version 2019 VCML: Schwerpunkt Vertiefung IG-12345 1 Bonus
benotete schriftliche Prüfung 90 Minuten oder benotete mündliche Prüfung
IS Version 2009 WPF Informatik und Wirtschaft IF-S-M-I12 1 Bonus
benotete schriftliche Prüfung 90 Minuten oder benotete mündliche Prüfung
IS Version 2017 WPF Informatik und Wirtschaft IF-S-M-I12 1 Bonus
benotete schriftliche Prüfung 90 Minuten oder benotete mündliche Prüfung