[NLP] SpaCy

avatar Ines Montani
avatar Nico Kreiling

In der zweiten Podcastfolge der Reihe zu natürlicher Sprachverarbeitung ist Ines Montani zu Gast, Entwicklerin von SpaCy und Mitgründerin von Prodigy. Zunächst sprechen wir generell über den Umgang mit Sprache, warum dieser so komplex ist und wie die open source Bibliothek spaCy hier hilft. Dabei geht es um typische Aufgaben wie Part of Speech Tagging, Lemmatization und  Named Entity Recognition genauso wie um geeignete Einsatz-Szenarien in der Industrie. Des Weiteren gibt Ines Einblicke in ihre tägliche Arbeit am open source Tool und erklärt,  warum NLP Modelle auch ohne GPU trainierbar sein müssen und Prodigy kein Interesse an den Daten seiner Kunden hat. Letztlich geben wir einen Überblick über das wachsende spaCy Ökosystem, einen Rückblick auf die spaCy in Real Life Konferenz und Ines gewährt einen Ausblick in zukünftige Entwicklungen bei spaCy und Prodigy.

Links:

#15 Praktisches Machine Learning mit Python

avatar Dominik Geldmacher
avatar Jochen Wersdörfer
avatar Nico Kreiling

In Folge 15 sind Jochen und Dominik vom Python Podcast zu Gast um uns dem maschinellen Lernen zu widmen. Gemeinsam besprechen wir ganz konkret die notwendigen Schritte, um Nachrichtentexte automatisch Tags zuzuordnen. Einerseits diskutieren wir über das richtige Tooling im Python-Umfeld, etwa Jupyter Notebooks, PyData Tools wie numpy und pandas sowie unsere bevorzugten Plotting Bibliotheken. Nach einer ersten Datenanalyse besprechen wir den Umgang mit Null-Werten und wie man mit TF-IDF oder Word-Embeddings den Text vektorisiert. Wir diskutieren verschiedene Algorithmen aus der Scikit-Learn Bibliothek und erklären Pipelines und Hyper-Parameter Tuning. Abschließend überprüfen wir die Güte unserer Modelle anhand eines Klassifikations-Reports und streifen Themen Skalierung, Deep Learning und vieles mehr.

Links

#4 Python für Data Science

avatar Alexandra Wörner
avatar Marcel Kurovski
avatar Nico Kreiling

Frameworks: Python – Numpy – Pandas – scikit-learn – TensorFlow – Keras – pytorch – Jupyter Notebooks – Jupyterlab

Datasets: Census-Income zur Klassifikation – Iris ebenfalls zur Klassifikation – MovieLens für Reccomender Engines – MNIST für Convolutional Neuronal Networks (CNNs)

Empfehlungen: Coursera – Machine Learning Kurs – OpenAI – Hands-On Machine Learning with Scikit-Learn and TensorFlow – Deep Learning Book – Christoph Olah – Distill.pub – Martin Görner – Deep Learning without an PhD