NLP mit Python - von klassischer Sprachverarbeitung bis zu Transformer-Modellen
Seminar - GFU Cyrus AG
Nach dem Seminar verstehen Sie die wichtigsten Aufgaben, Methoden und Modellklassen des Natural Language Processing. Sie können grundlegende NLP-Pipelines einordnen, Texte sprachlich und technisch vorbereiten sowie klassische und moderne Verfahren der Sprachverarbeitung fachlich bewerten. Sie kennen zentrale Konzepte wie Tokenisierung, POS Tagging, Named Entity Recognition, N-Gramm-Modelle, Bag-of-Words, Word Embeddings, Textklassifikation und Sequenzmodellierung. Darüber hinaus verstehen Sie die Grundlagen von maschineller Übersetzung, Seq2Seq-Architekturen, Attention-Mechanismen und Transformer-Modellen sowie die Auswirkungen von Bias in NLP- und LLM-Systemen.
Struktur und Besonderheiten unstrukturierter Textdaten
Überblick über klassische und moderne NLP-Verfahren
Linguistische Grundlagen für NLP
Sprachebenen und sprachliche Strukturen
Unterschiede zwischen isolierenden, agglutinierenden und (poly)synthetischen Sprachen
Bedeutung sprachlicher Eigenschaften für Tokenisierung und Modellierung
Tokenisierung und Textvorverarbeitung
Grundlagen der Tokenisierung
Unterschiedliche Tokenisierungsverfahren je nach Sprachtyp
Normalisierung, Segmentierung und Vorbereitung von Textdaten
Zentrale NLP-Aufgaben
Part-of-Speech-Tagging (POS Tagging)
Named Entity Recognition (NER)
Linguistische Annotation und strukturierte Textanalyse
Klassische Sprachmodelle und Textrepräsentationen
N-Gramm-Modelle
Bag-of-Words-Modell
Stärken und Grenzen einfacher Textrepräsentationen
Word Embeddings und semantische Repräsentationen
Verteilte Wortrepräsentationen
Semantische Ähnlichkeit in Vektorräumen
Einordnung klassischer Embedding-Verfahren
Einführung in die Textklassifikation
Naive Bayes
Logistische Regression
Multi-Layer Perceptron (MLP)
Vergleich klassischer Modelle für NLP-Aufgaben
Neuronale Sequenzmodelle
Recurrent Neural Networks (RNN)
Long Short-Term Memory (LSTM)
Vorteile, Grenzen und typische Probleme rekurrenter Architekturen
Maschinelle Übersetzung
Grundideen und Herausforderungen
Sprachstrukturelle Besonderheiten in Übersetzungsszenarien
Von klassischen Ansätzen zu neuronaler maschineller Übersetzung
Seq2Seq, Attention und moderne Architekturen
Encoder-Decoder-Modelle
Seq2Seq-Architekturen
Attention-Mechanismus
Motivation und Grundidee von Transformer-Modellen
Self-Attention und Kontextverarbeitung
Bias, Fairness und Risiken in NLP und LLMs
Entstehung von Bias in Trainingsdaten und Annotationen
Bias in maschineller Übersetzung und Textgenerierung
Verzerrungen in Large Language Models (LLMs)
Auswirkungen auf Qualität, Fairness und Anwendungsrisiken
Strategien zur Bias-Mitigation, Datenauswahl, Evaluation und Modellkontrolle
Praxisnahe Fallstudien
Language Detoxification
Topic Modelling
Einordnung typischer Herausforderungen, Methoden und Ergebnisse
Praxisorientierte Einordnung
Auswahl geeigneter Verfahren für unterschiedliche NLP-Anwendungsfälle
Vergleich klassischer, neuronaler und transformerbasierter Ansätze
Chancen, Grenzen und Einsatzgebiete in der Praxis
Dauer/zeitlicher Ablauf:
5 Tage
Zielgruppe:
Das Seminar richtet sich an Entwickler, Data Scientists, Data Analysts, KI-Interessierte, Machine-Learning-Anwender sowie Fachanwender mit Bezug zu Textdaten, die einen strukturierten Einstieg in die automatische Sprachverarbeitung suchen.
Angesprochen sind insbesondere Personen, die mit Textklassifikation, Informationsextraktion, Dokumentenanalyse, Chatbots, Suchsystemen, maschineller Übersetzung oder LLM-basierten Anwendungen arbeiten möchten oder aktuelle NLP-Methoden besser verstehen wollen.
Teilnahmevoraussetzungen
Sie benötigen grundlegende Programmierkenntnisse, idealerweise in Python.
Sie verfügen über ein allgemeines technisches Verständnis für Datenverarbeitung und Machine Learning.
Vorkenntnisse im Bereich Natural Language Processing (NLP) sind nicht erforderlich.
Das Seminar ist als Intensivseminar für Einsteiger bis leicht Fortgeschrittene konzipiert.
Wir setzen Analyse-Cookies ein, um Ihre Zufriedenheit bei der Nutzung unserer Webseite zu verbessern.
Diese Cookies werden nicht automatisiert gesetzt.
Wenn Sie mit dem Einsatz dieser Cookies einverstanden sind, klicken Sie bitte auf Akzeptieren.
Weitere Informationen finden Sie hier.