Text Mining und Natural Language Processing

Text Mining und Natural Language Processing

SWS 4
ECTS 5
Sprache(n) Deutsch (Standard)
Englisch
Lehrform SU mit Übung
Angebot nach Ankündigung
Aufwand

40 Präsenzstunden Vorlesung, 20 Präsenzstunden Übung, 35 Stunden Vor-/Nachbereitung der Übungen, 55 Stunden Nachbereitung der Vorlesung und Prüfungsvorbereitung

Voraussetzungen

Grundlegende Programmierkenntnisse (am Besten in Python) und grundlegende Kenntnisse der Wahrscheinlichkeitsrechnung auf Bachelor-Niveau, wie zum Beispiel erworben im gleichnamigen DC Bachelor Modul; vorteilhaft sind grundlegende Kenntnisse aus dem Bereich Deep Learning wie zum Beispiel erworben im DC Bachelor Modul Deep Learning DC

Ziele

Lernziele

  • Die Studierenden werden in die Lage versetzt, Modelle und Methoden aus dem Bereich des Text Minings und des Natural Language Processings (NLP) als Lösungsstrategie in verschiedensten Anwendungsszenarien methodisch korrekt und sicher einzusetzen. Der Fokus liegt auf der Grundlagenausbildung und dem Verständnis der einzelnen Themen in der Form von White-Box-Modellen.
  • Zudem werden die Studierenden befähigt, sich schnell in neue und aktuelle Text Mining Methoden und NLP Modelle und Methoden einzuarbeiten.

Fach- & Methodenkompetenzen

Die Studierenden

  • können die theoretischen Grundlagen des NLP erklären und die verschiedenen Modelle, Methoden und Algorithmen beschreiben.
  • erklären in eigenen Worten die Bedeutung von Natural Language Processing in ihrem fachlichen Kontext.
  • beschreiben die Unterschiede zwischen den einzelnen Methoden, Modellen und Algorithmen.
  • analysieren, welche Methoden, Modelle und Algorithmen in welchem Anwendungsszenario sinnvoll verwendet werden können.
  • setzen die Algorithmen, Modelle und Methoden in Python (eine der führenden Programmiersprachen im Bereich des maschinellen Lernens) größtenteils mit Hilfe von Softwarebibliotheken um.
  • sind zudem in der Lage, einfachere Modelle „from scratch“ zu implementieren.
  • bewerten ihre Implementierungen hinsichtlich relevanter Anwendungskriterien wie z.B. Modellleistung oder Inferenzgeschwindigkeit.

Überfachliche Kompetenzen

Die Studierenden

  • können erfolgreich mit anderen zusammenzuarbeiten und gemeinsame Ziele erreichen.
  • erarbeiten in Kleingruppen Vorlesungsinhalte und setzen eigenständig praktische Aufgabenstellungen um.
  • erwerben die Fähigkeit komplexe Zusammenhänge nachvollziehbar und überprüfbar aufzubereiten und darzustellen.
  • können Informationen analysieren, aus diversen Gesichtspunkten (z.B. Fairness, Nachhaltigkeit, Reproduzierbarkeit) bewerten und fundierte Schlussfolgerungen ziehen.
Inhalt

In vielen Anwendungsgebieten müssen natürlichsprachliche Datenquellen analysiert werden. Diese Daten können beispielsweise in Form von Text oder Audio wie gesprochener Sprache vorliegen. Oftmals kommen hier statistische, linguistische bzw. Machine Learning Modelle und Methoden zu Tragen.

In diesem Kurs werden zunächst Analyseverfahren aus dem Bereich Textmining, wie Clusterverfahren und Vektorenverfahren geklärt. Schließlich wird auf die typischen Aufgaben des NLP wie z.B. Zeichenerkennung, Text- und Spracherkennung, Morphologische Analyse, Syntaktische Analyse, Text-to-Speech, und die Bestimmung der Semantik eingegangen. Es folgt die Einführung in tiefergehende Konzepte, wie beispielsweise maschinelle Übersetzung, Natural-language Generation, Natural-language Understanding und Text-to-image Generation. Die einzelnen Kapitel werden jeweils mit praktischen Übungen zur Umsetzung mit aktuellen Frameworks wie z.B. dem NLTK in Python ergänzt.

Medien und Methoden

Beamer, Tafel, Jupyter Notebooks

Literatur

Literaturliste wird zu Beginn der Veranstaltung bekannt gegeben. Beispiel-Literatur:

  • Ghosh, Sohom & Gunning, Dwight (2019). Natural Language Processing Fundamentals: Build intelligent applications that can interpret the human language to deliver impactful results.
  • Hirschle, Jochen (2022). Deep Natural Language Processing: Einstieg in Word Embedding, Sequence-to-Sequence-Modelle und Transformer mit Python. Hanser Verlag.
Zuordnungen Curricula
SPO Fachgruppe Code ab Semester Prüfungsleistungen

IG Version 2019

EC: Fachliche u. persönliche Profilbildung

1

schriftliche Prüfung

IG Version 2019

SWE: Fachliche u. persönliche Profilbildung

1

schriftliche Prüfung

IG Version 2019

VCML: Fachliche u. persönliche Profilbildung

1

schriftliche Prüfung

DA Version 2023

DA: Anwendungen

IF-DA-M-A12

1

schriftliche Prüfung

IG Version 2024

EC: Fachliche u. persönliche Profilbildung

1

schriftliche Prüfung

IG Version 2024

SWE: Fachliche u. persönliche Profilbildung

1

schriftliche Prüfung

IG Version 2024

VCML: Fachliche u. persönliche Profilbildung

1

schriftliche Prüfung