Author Archives: Andreas Krassnigg

Mögliche Prüfungsfragen aus Fortgeschrittene Mathematik und Computergestützte Algorithmen

Hier finden Sie eine Reihe von Fragen, die Sie zum Beispiel aber nicht ausschließlich bei der abschließenden Prüfung zur VU Fortgeschrittene Mathematik und Computergestützte Algorithmen erwarten können. Zur Vorbereitung empfehle ich Ihnen, sich die Fragen durchzulesen und darauf zu achten, ob Sie sie zu Ihrer Zufriedenheit beantworten können. Das soll bedeuten, Sie fühlen sich zuversichtlich, diesen Inhalt auch jemandem erklären zu können, der davon noch nichts gehört hat.

Wenn das nicht der Fall ist, lesen Sie die entsprechende Stelle in diesem Skriptum nach und arbeiten Sie das Thema mit dem Jupyter-Notebook noch einmal in Ruhe durch. Hier sind die Kapitel nochmal als übersichtliche Liste:

Die Jupyter-Notebooks zur Lehrveranstaltung finden Sie im zugehörigen GitHub-Repository.

Fragen zu Einführung und einfache Algorithmen

Geben Sie ein einfaches Beispiel für einen Algorithmus aus dem täglichen Leben!
Geben Sie ein einfaches Beispiel für einen mathematischen Algorithmus (z.B. mit Zahlen)!
Erklären Sie anschaulich, was mit der “Komplexität” eines Algorithmus gemeint ist!
Nennen Sie einige typische charakteristische Merkmale eines Algorithmus!
Erklären Sie die Bedeutung des Begriffs “iterativ” im Zusammenhang mit Algorithmen!
Welche beiden Haupttypen von Loops haben wir in Python verwendet und worauf muss man bei deren Verwendung achten?
Bei unserem Beispiel zur Berechnung der ersten N Primzahlen haben wir zum ersten Mal einen Hauch von “Optimierung” gespürt, als wir versucht haben, die Zeit-Komplexität unseres Beispiel-Algorithmus zur Primzahlenberechnung zu verbessern. Erklären Sie diese Situation und die Zusammenhänge!
Nennen Sie (zumindest) eine Klasse der Zeitkomplexität!
Kann ein und dasselbe Problem je nach Lösungsmethode in verschiedene Klassen der Zeitkomplexität gehören? Warum (nicht)?
Erklären Sie den Begriff der “Skalierung” im Zusammenhang mit der Zeitkomplexität eines Algorithmus!
Muss eine iterative Lösungsmethode eines Problems grundsätzlich immer konvergieren?

Fragen zu Differenzieren und Integrieren

Erklären Sie anschaulich den Unterschied zwischen analytischen und numerischen Lösungsmethoden für mathematische Probleme!
Welche Python Package haben wir für die analytische bzw. symbolische Arbeit an Problemen verwendet?
Wenn man in SymPy erst einmal Symbole (Variablen) und Funktionen dieser Variablen definiert hat, was kann man dann z.B. damit machen?
Sie haben mit SymPy eine längere Rechnung symbolisch durchgeführt. Wie bekommen Sie am Ende konkrete Zahlen für bestimmte Werte Ihrer Variablen heraus?
Beschreiben Sie kurz, wie Sie mit SymPy Gleichungen symbolisch lösen können!
Beschreiben Sie kurz, wie Sie mit SymPy symbolisch eine Funktion ableiten oder integrieren können!
Diskutieren Sie anschaulich mögliche Probleme bei der numerischen Differentiation!
Muss man in Python die Funktionalität für numerisches Differenzieren selbst schreiben?
Diskutieren Sie anschaulich mögliche Probleme und die Vorteile der numerischen Integration!
Welches numerische Integrationsverfahren haben wir beispielhaft eingesetzt und mit Hilfe welcher Python-Package?

Fragen zu Vektoren, Matrizen und Vektorisierung in Python

Welche Python-Package ist bei der Behandlung von Vektoren, Matrizen und höherdimensionalen Arrays zentral?
Beschreiben Sie kurz die Macht der NumPy-Arrays und wie diese sich von normalen Listen in Python unterscheiden!
Mit NumPy ist die Erzeugung und Manipulation von Matrizen recht einfach. Zählen Sie ein paar Beispiele für solche Manipulationen auf!
Eine wesentliche Operation an NumPy-Arrays ist das sogenannte “Slicing”. Worum handelt es sich dabei, und worauf muss man besonders achten?
Auch die Matrixmultiplikation ist mit NumPy-Arrays kein Problem. Beschreiben Sie ein Beispiel dafür und wie man sie für NumPy-Arrays ganz einfach ausführen kann!
Als Beispiel für höherdimensionale Arrays haben wir uns mit Bildern und Bildbearbeitung auseinandergesetzt. Wie viele Dimensionen hat das NumPy-Array, das beim Laden einer Fotodatei entsteht und warum?
Nennen Sie ein Beispiel für eine einfache Bildbearbeitungs-Operation und wie man diese an einem NumPy-Array realisieren würde!
Beschreiben Sie die generelle Funktionsweise eines Filters und wie man dessen Anwendung auf ein Bild mit NumPy-Hilfe umsetzen kann!
Was ist, macht und bringt “Vektorisierung” in Python?
Worauf müssen Sie achten, wenn Sie vektorisierten Python-Code verwenden?

Fragen zu Datenanalyse bzw. Datenauswertung

Welches gängige Dateiformat haben wir für unsere Daten-Input-Dateien verwendet?
Was findet man auf kaggle.com?
Als erste Möglichkeit, sich mit Daten vertraut zu machen, bietet sich meist die grafische Darstellung an. Welche Python-Package haben wir dafür verwendet und wie funktioniert sie in etwa?
Wenn man Daten aus einer Datei einliest, muss man meist etwas Filtern oder Bereinigen. Beschreiben Sie, welche Schritte dabei nötig sein können!
Nach einer grafischen Darstellung neuer Daten bietet sich eine einfache statistische Auswertung der Daten als nächster Schritt an, um besser mit den Daten vertraut zu werden. Beschreiben Sie so eine einfache Analyse!
Beschreiben Sie anschaulich, was ein Histogramm ist und was man daraus lernen kann!
Erläutern Sie die Unterschiede zwischen linearen bzw. logarithmischen Skalen auf der horizontalen und/oder vertikalen Achse eines Plots!
Beschreiben Sie kurz, was ein Korrelationskoeffizient ist und was man daraus (nicht) lernen kann!
Geben Sie ein Beispiel für Daten, bei denen eine Korrelation zu erwarten ist!
Geben Sie ein Beispiel für Daten, bei denen Sie eine Korrelation überraschen würde!

Fragen zu Grundlagen der Optimierung und Gradient Descent

Was ist Optimierung?
Nennen Sie mögliche Einschränkungen für ein Optimierungsproblem!
Sind Minimierung und Maximierung im Grunde das gleiche Problem oder nicht?
Beschreiben Sie anschaulich Zweck und Grenzen des “Brute-Force”-Zugangs zu einem Optimierungsproblem!
Beschreiben Sie ein Beispiel für die iterative Lösung eines Optimierungsproblems!
Diskutieren Sie die Unterschiede von Optimierungsproblemen mit kontinuierlichen Variablen gegenüber diskreten Optimierungsproblemen!
Wie funktioniert der Gradient-Descent-Algorithmus?
Welche Einschränkungen gelten für den Gradient-Descent-Algorithmus?
Schildern Sie, wie Gradient-Descent gut funktionieren kann und woran er scheitern kann!
Erläutern Sie den Unterschied zwischen einem lokalen und einem globalen Optimum und deren Rolle bei der Verwendung von Gradient-Descent!

Fragen zu Stochastische Optimierung und Genetische Algorithmen

Woher kommen die (Pseudo-)Zufallszahlen, die wir in Python verwendet haben?
In NumPy kann man Pseudozufallszahlen aus bestimmten Verteilungen erzeugen lassen. Beschreiben Sie kurz, warum das sinnvoll sein kann!
Was bedeutet der Begriff “Sampling”?
Welche Vorteile hat stochastische Optimierung gegenüber Gradient-Descent?
Warum kann ein Optimierungsverfahren, das auf Pseudozufallszahlen beruht, überhaupt funktionieren?
Was ist ein Genetischer Algorithmus?
Wie muss man sich den “Genetischen Code” bei einem Genetischen Algorithmus vorstellen?
Welche Mechanismen stehen zur Verfügung, um bei einem Genetischen Algorithmus die nächste Generation aus der aktuellen Population zu erzeugen?
Welche Parameter kann man bei einem Genetischen Algorithmus verändern?
Findet ein Genetischer Algorithmus immer die bestmögliche Lösung für das Optimierungsproblem?

Fragen zu Monte-Carlo-Methoden – Simulation und Integration

Beschreiben Sie eine Monte-Carlo-Simulation im Überblick!
Wie wählen Sie die Anzahl der nötigen Runs für eine gute Monte-Carlo-Simulation?
Welche Rolle spielen Samples bei einer Monte-Carlo-Simulation?
Wie hilft der Zentrale Grenzwertsatz bei der Auswertung einer Monte-Carlo-Simulation?
Warum ist ein einziger Run einer Monte-Carlo-Simulation zu wenig für eine fundierte Aussage zum Verhalten des simulierten Systems?
Nennen Sie ein Beispiel für ein System, das man gut mit einer Monte-Carlo-Simulation untersuchen kann!
Welche Größe ist wichtiger, um die Qualität eines Monte-Carlo-Simulations-Resultats einschätzen zu können: Der Mittelwert aller Ergebnisse oder der zugehörige Fehler?
Wie haben wir auf einfache Art den Wert der Zahl Pi per Monte-Carlo-Simulation abgeschätzt?
Wie skaliert der Fehler bei der Monte-Carlo-Simulation/Integration mit der Anzahl der Simulations-/Integrations-Punkte?
Funktioniert Monte-Carlo-Simulation nur für Würfel- oder Kartenspiele?

Fragen zu Monte-Carlo-Methoden, Teil 2 – Monte-Carlo-Integration, Teil 2 und Random Walk

Beschreiben Sie, wie die effiziente Monte-Carlo-Integrationsmethode funktioniert, die wir kennen gelernt haben!
Worauf muss man achten, wenn man einen Teil eines Integrals als Wahrscheinlichkeitsdichte interpretiert?
Warum hat die Interpretation eines Teils des Integrals als Wahrscheinlichkeitsdichte einen Vorteil?
Welche Arten von Integralen kann man mit dieser Art von numerischer Integration lösen?
Was ist ein “Random Walk”?
Welche Rolle spielt ein Weg (ein Walk) in einer Monte-Carlo-Simulation eines Systems?
Welche Größen können bei der Analyse von Random Walks interessant sein?
Welche Parameter können Sie bei einem Random Walk einstellen?
Welche Parameter sind bei einem Random Walk vorgegeben?
Nennen Sie ein anschauliches Beispiel für ein System, das sich gut mit einer Monte-Carlo-Simulation über Random Walks untersuchen ließe!

Fragen zu Unsupervised Machine Learning: Clustering von Daten

Was versteht man im Allgemeinen unter “Machine Learning”?
Erklären Sie den wesentlichen Unterschied zwischen unsupervised und supervised Learning!
Wenn Sie fast nichts über einen Datensatz wissen, können Sie dann eher unsupervised oder supervised Learning darauf anwenden?
Kann unsupervised Learning bei der Datenanalyse helfen? Warum (nicht)?
Was versteht man unter dem Begriff “Clustering”?
Welche Parameter beschreiben eine bestimmte Art von Clustering?
Wie funktioniert hierarchisches bzw. agglomeratives Clustering?
Wie funktioniert ein dichte-basierter Clustering-Algorithmus und welche Vorteile hat er?
Wie funktioniert der K-Means Clustering-Algorithmus?
Nennen Sie ein Beispiel für einen Datensatz und welchen Clustering-Algorithmus Sie am ehesten darauf anwenden würden!

Fragen zu Supervised Machine Learning: Grundlagen

Wie bezeichnet man Inputs und Outputs beim supervised Learning im Fachjargon?
Zum Beispiel welche Arten von Labels kann man bei Daten vorfinden?
Warum ist die Vorbereitung der Daten beim supervised Learning so wichtig?
Wie sorgt man dafür, dass die Trainingsdaten beim supervised Learning ausgewogen sind, und was bedeutet das?
Nennen Sie ein paar der typischen Schritte bei der Durchführung von supervised Learning auf einem vorgegebenen Datensatz!
Was ist beim supervised Learning erfahrungsgemäß schwieriger: Ordentliche Daten zu bekommen oder ein Modell darauf zu trainieren?
Beschreiben Sie anschaulich die Funktionsweise eines “Decision Trees”.

Einführung in künstliche neuronale Netzwerke

Die Jupyter-Notebooks zur Lehrveranstaltung finden Sie im zugehörigen GitHub-Repository.

Einführung in künstliche neuronale Netzwerke

11. Einführung in künstliche neuronale Netzwerke¶

In dieser Einheit kommen wir zu einem sehr populären Kapitel bzw. Werkzeug aus dem Bereich des Machine Learnings, nämlich künstlichen neuronalen Netzwerken.

Diese tauchen meist unter dem Begriff des supervised Learning auf, sie können allerdings auch beim unsupervised Learning eingesetzt werden. Wir verhalten uns hier trotzdem traditionell und organisieren uns für unsere Einheit einen gelabelten Trainingsdatensatz. Genauer gesagt werden wir sogar den gleichen Datensatz verwenden, den wir in der vorangegangenen Einheit bereits kennen gelernt haben.

Wir werden hier auch wieder ein Klassifikationsproblem) angehen, einfach weil das zugänglicher ist. In dem Setup, das wir hier aufbauen werden, ist es allerdings überhaupt kein Problem, auf ein Regressionsproblem umzusteigen, denn dafür muss man dann unten nur die Loss-Funktion austauschen – aber dazu kommen wir noch.

Der Plan für diese Einheit ist, zunächst die benötigten Packages zu installieren, dann über die grundsätzliche Struktur von künstlichen neuronalen Netzten zu reden, und danach ein einfaches Netzwerk zu trainieren und auszuwerten.

Zunächst aber noch die Imports für heute.

In [3]:

%matplotlib inline
import matplotlib.pyplot as plt # für plotting, wie gewohnt

import numpy as np              # für numerische Aktionen mit Arrays, wie gewohnt

import sys                      # um System-Befehle ausführen zu können

from IPython.display import Image  # um Bilder von einer URL anzuzeigen

# hier die Funktionen für den Datensatz 

from sklearn.datasets import make_moons, make_circles # zur Erzeugung von Datensets

# die Pytorch- und Lightning-spezifischen Imports kommen weiter unten

11.1 Installation von PyTorch und PyTorch Lightning in Jupyter Notebook¶

Die folgenden Kommandos installieren die Packages PyTorch und PyTorch Lightning direkt über das Jupyter Notebook in jenem Anaconda-Environment, in dem Jupyter läuft. Wenn Sie das nicht möchten, dann erzeugen Sie ein eigenes conda Environment für diese Aktion, aktivieren Sie es und starten Sie dort Jupyter Notebook neu. Führen Sie erst dann die Installationsbefehle aus.

In [4]:

# und die Packages PyTorch und PyTorch Lightning installieren wir gleich
# hier in den aktuellen Jupyter Kernel.

# Zunächst PyTorch:
!conda install --yes --prefix {sys.prefix} pytorch torchvision torchaudio -c pytorch

Collecting package metadata (current_repodata.json): done
Solving environment: done

# All requested packages already installed.

In [5]:

# Und dann noch das Abstraction Layer PyTorch Lightning:
!conda install --yes --prefix {sys.prefix} pytorch-lightning -c conda-forge 

Collecting package metadata (current_repodata.json): done
Solving environment: done

# All requested packages already installed.

Nach diesen beiden Aktionen sollte alles Nötige installiert sein, um das Notebook weiter auszuführen. Hier sagen die Outputs, dass bereits alle Packages installiert sind, weil ich das bereits vorher erledigt habe. Bei einer neuinstallation werden die entsprecheneden Informationen über den Installationsprozess ausgegeben, die man normalerweise bei der Einrichtung direkt in der Shell zu sehen bekommt.

11.2 Erzeugen des Datensatzes für das Training des künstlichen neuronalen Netzwerks¶

Als nächstes werden wir im Prinzip den gleichen Datensatz erzeugen wie beim letzen mal beim Supervised Learning, nur mit ordentlich mehr Punkten. Wie Sie vielleicht bereits wissen, braucht es für entsprechend große Netzwerke auch dementsprechend viel Trainingsdaten. Legen wir also los:

In [23]:

# Erzeuge einen mondförmigen Datensatz mit 2 Klassen (also 2 Mond-Punktwolken)
# noise bedeutet, wie sehr die Monde "zerstreut" werden, wir nehmen hier einen mittleren Wert
# der random_state sorgt wieder für Reproduzierbarkeit
raw_data = make_moons(n_samples=5000, noise=0.7, random_state=0)

# Der Output hat zwei Teile, der erste sind die Inputs
input_data = raw_data[0]

# der zweite sind die Labels
label_data = raw_data[1]

# Sehen wir uns zur Erinnerung kurz die ersten 10 Inputs an
print("Features:\n", input_data[:10])

# Und die ersten 10 Labels
print("Labels:\n", label_data[:10])

Features:
 [[ 0.75905709  1.56726433]
 [ 0.90673392 -1.10902892]
 [ 0.97857421  0.53220442]
 [ 2.30592358  0.12020829]
 [ 0.31471019  1.20925982]
 [-0.80655991  0.3538562 ]
 [-0.32596714  2.16884762]
 [-0.70630087  1.26108296]
 [ 0.90290597 -0.03617829]
 [ 0.41587006  1.14335276]]
Labels:
 [0 1 1 1 0 1 0 0 0 1]

In [24]:

# Plotten wir das auch noch einmal zur Veranschaulichung
fig=plt.figure()

# setzen wir das Skalenverhältnis von x und y auf 1
ax = plt.gca()
ax.set_aspect(1)


# Ein Scatterplot, wie wir ihn schon gewohnt sind, mit Farben nach Klassen
plt.scatter(*np.transpose(input_data), c=label_data)

plt.show()

Das sieht nach einem sehr interessanten Datensatz aus. Jetzt kommen wir also zum nächsten Schritt, dem Aufsetzen des Lernens und Vorhersagens mit PyTorch. Dazu muss ich zunächst zumindest ein Bisschen ausholen:

11.3 Grundlegende Struktur eines einfachen künstlichen neuronalen Netzwerks¶

Ein einfaches künstliches neuronales Netzwerk (ab jetzt einfach kurz “KNN” genannt), besteht aus folgenden grundlegenden Elementen:

Einem Input-Layer, in das die Inputs passen
Einem Output-Layer, das die Outputs ausgibt
Mehreren sogenannten “hidden” Layers dazwischen, oder einer ganz frei wählbaren Netzwerk-Topologie
Besteht ein KNN aus mehreren hidden Layers, dann wird es bereits als “deep” bezeichnet, man nennt die entsprechende Variante von Machine Learning dann auch “Deep Learning”.
Zwischen aufeinanderfolgenden Layers können verschiedene zusätzliche “Effekte” eingebaut werden, die zur Stabilität des Trainings und der Vorhersagen beitragen können. Damit wollen wir uns hier nicht befassen (das kommt im Laufe der Zeit von selber). Eine Sache ist aber wichtig:
Zwischen aufeinanderfolgenden Layers kommt immer eine sogenannte “Nichtlinearität” oder “Aktivierungsfunktion”. Diese sorgt dafür, dass die Kombination von aufeinanderfolgenden Layers nicht trivial wird, denn:

Die einfachste Layer-Variante (und nur damit beschäftigen wir uns hier) nennt man “fully-connected” oder “dense” Layer. Es besteht aus einer fixen Anzahl von Einheiten, sogenannten “Neuronen”. Jedes Neuron beinhaltet einen Zahlenwert, der dadurch bestimmt wird, dass die Inputs (Zahlenwerte) aus den Neuronen des vorigen Layers linearkombiniert werden.

In [2]:

# Hier ein Bild dazu, Quelle: https://commons.wikimedia.org/wiki/File:MultiLayerNeuralNetworkBigger_english.png

Image(url="https://upload.wikimedia.org/wikipedia/commons/thumb/c/c2/MultiLayerNeuralNetworkBigger_english.png/880px-MultiLayerNeuralNetworkBigger_english.png", width=700)

Out[2]:

Sie können sich das so wie eine Matrix-Vektor-Multiplikation vorstellen. Jedes fully-connected Layer ist ein Vektor von Zahlen. Und jedes Nachfolgende Layer wird daraus durch Multiplikation des vorangegangenen Vektors mit einer Matrix von Koeffizienten berechnet. Da das eine lineare Abbildung ist, wäre die Hintereinanderausführung mehrerer solcher Layers wieder linear.

Und genau daher verwendet man eine nichtlineare Aktivierung. Klassische Aktivierungsfunktionen sind z.B. der Arkustangens oder die sogenannte Sigmoid-Funktion: $$\mathrm{sig}(x)=\frac{1}{1+e^{-x}}$$ Das sieht geplottet so aus:

In [22]:

# Erzeuge einen Plot
fig = plt.figure()

# Erzeuge eine Reihe von x-Werten zwischen -10 und 10
x_values = np.linspace(-10, 10, 200)

# Plotte die Funktion
plt.plot(x_values, 1. / (1. + np.exp(-x_values)), label="Sigmoid")

# und dazu noch den Arkustangens
plt.plot(x_values, np.arctan(x_values), label="Arkustangens")

# Achsenbeschriftungen
plt.xlabel(r"$x$")
plt.ylabel(r"sig$(x)$")

# und die Legende erzeugen
plt.legend(loc="lower right")

plt.show()

Die Nichtlinearität sorgt im Wesentlichen dafür, dass es z.B. einen bestimmten Wertebereich für die Outputs gibt. Statt beliebiger Zahlen kommen bei der Sigmoid-Funktion Werte zwischen $0$ und $1$ heraus. Beim Arkustangens ist es ein Wertebereich von $-1$ und $1$. Sie sorgt aber auch dafür, dass das Netz die Möglichkeiten durch mehrere Layers gut nutzen kann.

Soviel ganz kurz und Grundlegend zur Struktur eines einfachen KNN. Was von all dieser Struktur wird nun aber beim Training gelernt? Was ist vorgegeben?

11.4 Freie Parameter und Hyperparameter in einem einfachen künstlichen neuronalen Netzwerk¶

Ist die Struktur eines KNN einmal festgelegt, dann folgt daraus, welche und wie viele freie, also trainierbare bzw. lernbare, Parameter in diesem Netz stecken. Dass die Anzahl der freien Parameter in einem Modell eine wichtige Größe ist, das wissen wir bereits. Im Zusammenhang mit KNNs verdient der Vergleich der Anzahlen der Parameter im Modell mit der Anzahl der Datenpunkte allerdings zusätzliche Aufmerksamkeit.

Schnell ist man versucht, das Netz tiefer und die Layers breiter zu machen, um dem Netzwerk zu ermöglichen, aller Art Strukturen in den Daten zu finden oder zu erlernen, aber dabei schießt man oft über das Ziel hinaus. Das Problem, das hier auftritt, heißt “Overfitting”, d.h., das Netz lernt einfach die Trainingsdaten auswendig. Das soll aber nicht passieren, denn sonst kann es über die Trainingsdaten hinaus (z.B. für die Testdaten) keine besonders guten Vorhersagen mehr machen. Also wenden wir uns kurz dem Thema Parameter zu.

Zunächst einmal zu den Begriffen:

Ein freier Parameter in einem Machine-Learning-Modell wird beim Training angepasst
Ein Hyperparameter eines Machine-Learning-Modells wird durch die Struktur oder andere Aspekte vorgegeben und ändert sich während eines Trainings normalerweise nicht

Nehmen wir z.B. ein einfaches Netzwerk her, das aus einem Input-Layer, einem Output-Layer und zwei hidden Layers besteht, alle fully-connected. Das ist also ein Layer mehr als im Bild oben, aber die Prinzipien sind die gleichen. Dann haben wir dabei allein durch die HyperparameterNetzwerk-Topologie folgende Hyperparameter:

Die Anzahl der Neuronen im Input-Layer
Die Anzahl der Neuronen im Output-Layer
Die Anzahl der hidden Layers
Die Anzahl der Neuronen im ersten hidden Layer
Die Anzahl der Neuronen im zweiten hidden Layer

Die Anzahlen der Neuronen im Input- und Output-Layer werden grundsätzlich durch die Dimension von Input-Daten und dem gewünschten Output vorgegeben. Für unseren Beispiel-Datensatz sind das 2 Inputs ($x$ und $y$ der Punkte) und 2 Outputs (die Wahrscheinlichkeiten für die Klassen). Die Anzahlen der Neuronen in den hidden Layers können wir frei wählen. Nennen wir sie für den Moment einmal $m_1$ und $m_2$. Da die Neuronen von einem Layer zum nächsten alle miteinander verbunden sind, erhalten wir so die folgende Gesamtanzahl von freien Parametern in unserem KNN: $$2\times m_1 + m_1 \times m_2 + m_2 \times 2$$ Wenn wir z.B. $64$ Neuronen in beide hidden Layers setzen, dann werden das bereits $64\times 68= 4352$ freie Parameter. Es kann hier also, insbesondere mit fully-connected Layers, sehr schnell gehen, und man hat einen ganzen Haufen freie Parameter im Modell. Behalten wir das einmal im Hinterkopf.

11.5 Training eines künstlichen neuronalen Netzwerks im Allgemeinen¶

Was bedeutet das nun für das Training? Wir haben beim vergangenen Mal bereits supervised Machine Learning praktiziert und verschiedene Modelle per “Fit” auf unsere Daten losgelassen. Aber was ist dabei eigentlich passiert? Wenn ein KNN (oder ein anderes ML-Modell) trainiert wird, dann wird dabei versucht, ein Optimierungsproblem zu lösen. Optimierung kennen wir ja bereits aus früheren Einheiten. Wie beim supervised ML besprochen, optimieren wir hier den Unterschied der Modell-Vorhersagen zu den tatsächlichen Labels der Trainingsdaten.

Das passiert auch hier. Die Methode, die dabei angewendet wird, ist meist eine Variante von Gradient Descent, den wir auch bereits kennen. Die Schrittweite beim Gradient Descent ist ein weiterer Hyperparameter und wird als “Learning Rate” bezeichnet Die zu minimierende Funktion ist die “Kostenfunktion”, die entsteht, wenn man den sogenannten “Loss” über alle Trainingsbeispiele mittelt. Die Loss-Funktion kann man verschieden wählen, meist je nach Problemstellung, und auch diese Wahl ist eigentlich ein Hyperparameter. Wir werden sie hier weiter unten einfach aus dem PyTorch-Fundus für Loss-Funktionen auswählen.

Ein weiterer Hyperparameter ist die sogenannte “Batchsize”. Was ist das nun schon wieder? Beim Deep Learning sind die Datenmengen teils riesig. Das bedeutet unter anderem, dass sie meist in Teilen dem Modell zum Lernen “gefüttert” werden. Z.B., wenn $100$ Datenpunkte auf einmal, gemeinsam mit dem Modell, gut in den Speicher der Grafikkarte passen, dann wählt man Batchsize $100$. Damit kann man auch gut experimentieren, um den Lern-Prozess effizient zu gestalten.

Wenn alle Daten einmal durch das Modell gelaufen sind, dann spricht man von einer “Epoche”. Das passiert mehrmals, und man lässt also das Modell einige (viele, teils sehr viele) Epochen lang trainieren.

So, jetzt habe ich aber langsam genug geredet. Gehen wir’s an.

11.6 Training eines künstlichen neuronalen Netzwerks mit PyTorch und PyTorch Lightning¶

Am direktesten ist es, wenn ich hier einfach die Teile unseres kleinen Netzwerks mit PyTorch und PyTorch Lightning der Reihe nach zusammensetze, und dann starten wir das Training. Hier kommen erstmal noch eine Runde von Imports.

In [9]:

import torch                      # Die Package PyTorch selbst

import torch.nn as nn             # Ein Teil nochmal extra, als Abkürzung, für Teile von neuronalen Netzen

from torch import optim           # Das Modul für die Optimierungs-Algorithmen, auch extra nochmal

from torchmetrics.functional import accuracy    # Die Funktion zur Berechnung der Accuracy

from torch.utils.data import Dataset, DataLoader, random_split  # einige Tols für die Datenaufbereitung

import pytorch_lightning as pl    # Und die Abstraction PyTorch Lightning

In [ ]:

# So wird unten die Zelle für Aufruf und Training aussehen. 
# ACHTUNG: NOCH NICHT AUSFÜHREN, das machen wir später, aber hier 
# wird erst einmal klar, was wir noch brauchen

# zunächst holen wir uns von PyTorch Lightning eine Instanz der Trainer-Python-Klasse
# Die maximale Epochenzahl ist wichtig, sonst läuft der Trainer erstmal unbegrenzt
trainer = pl.Trainer(max_epochs=100)

# Als nächstes erzeugen wir eine Instanz unserer eigenen Netzwerk-Python-Klasse,
# die wir noch schreiben müssen. Das klingt zunächst nach Stress, ist 
# aber sehr geradlinig, wie Sie gleich sehen werden
# Dieser Schritt ist im Prinzip analog zum Modell-Aufruf in Scikit-Learn, wie letztens
model = OurNetwork(Einpaarinputs)

# Dann rufen wir das Training auf, auch das ist analog zur vergangenen Einheit
trainer.fit(model)

# Und schließlich rufen wir den Test auf, das ist eine kleine Abkürzung im Vergleich zum
# vergangenen Setup mit Scikit-Learn, aber grundsätzlich auch das gleiche
trainer.test(model)

# das ist grundsätzlich alles.

Dieses Erste Setup wollte ich Ihnen zeigen, bevor wir die entsprechende Python-Klasse für das Netzwerk (und noch eine, ganz kurze für die leichtere Verwendung des Datensatzes) erstellen. Ich weiß schon, wir haben uns bisher nicht um Klassen in Python gekümmert, aber das ist trotzdem keine Hexerei. Denken Sie so ähnlich wie für eine Funktion in Python, nur mächtiger. Dann werden Sie schnell die Einträge hier verstehen.

PyTorch Lightning macht es sehr einfach, die Funktionalität von PyTorch zu nutzen, die selbst bereits sehr umfangreich und komfortabel ist. Fangen wir einfach mal an. Die Sache kommt trotzdem etwas umfangreich daher, aber das liegt daran, dass diese Methoden einfach sehr mächtig sind und daher auch entsprechende vorbereitung erfordern.

In [25]:

# Zunächst eine einfache Klasse für unseren Datensatz. Das hat den Sinn, dass
# die Daten von PyTorch Lightning einfacher verarbeitet werden können, egal,
# auf welcher Hardware und in welcher Konfiguration
class OurData(Dataset):
    
    # In der Initialisierung weisen wir einfach unsere Daten den Inputs und Outputs zu
    def __init__(self):

        # Hier die Inputs. "self" bezieht sich dabei immer auf die Instanz
        self.data_X = input_data
        
        # Hier die Labels. 
        self.data_y = label_data
        
        # Schreiben wir die Länge der geladenen Daten heraus
        print("Successfully created training data of length: ", len(self.data_X))

    def __len__(self):
        # Diese Methode definiert, was ausgegeben wird, wenn nach der Länge des Datensatzes gefragt wird
        return len(self.data_X)

    def __getitem__(self, idx):
        # Diese Methode definiert, wie man das nächste Element des Datensatzes erhält
        return self.data_X[idx], self.data_y[idx]
    

In [26]:

# Nun die für unsere Zwecke recht umfangreiche Klasse für das KNN
# Hier kommen einige Methoden, die die Funktionen beim Training und weiteren Schritten
# vorbereiten und dann im Detail beschreiben und definieren
# Klassennamen verwenden üblicherweise Großbuchstaben am Anfang von Wortteilen
class OurNetwork(pl.LightningModule):
    """
    Einfaches Pytorch-Lightning-Modul, das aus einem x,y-Koordinatenpaar eine Klasse
    für einen Datensatz mit 2 Mond-Punktwolken vorhersagt
    """

    # diese Methode initialisiert wieder die Klasse
    # "self" steht dabei wieder für die Instanz, wenn diese einmal erstellt ist
    # alle mit self. referenzierten Variablen können auch problemlos innerhalb
    # der Klasse verwendet werden
    
    # wir verwenden hier zwei Variablen, die beim Instanz-Erzeugen übergeben werden
    def __init__(self, batch_size=100, hidden_dim=16):
        
        # diese Klasse basiert auf einer anderen ("LightningModule")
        # hier laden wir deren init Methode, damit erbt die Klasse auch
        # alles, was die übergeordnete (parent) Klasse kann
        super().__init__()
        
        # hier definieren wir die Batchsize aus der Eingabe-Variablen
        self.batch_size = batch_size
        
        # Hier definieren wir nun die Layers zur Verwendung innerhalb der Instanz
        # nn.Linear ist ein fully-connected Layer, das in_features Inputs und
        # out_features Outputs hat
        # Hier ist das Input-Layer bzw. die Parameter-Matrix vom Input- zum ersten hidden Layer
        self.fc_1 = nn.Linear(in_features=2, out_features=hidden_dim)

        # Hier ist die Parameter-Matrix vom ersten zum zweiten hidden Layer
        self.fc_2 = nn.Linear(in_features=hidden_dim, out_features=hidden_dim)

        # Hier ist die Parameter-Matrix vom zweiten zum dritten hidden Layer, 
        # falls wir das später einführen und verwenden wollen
        self.fc_3 = nn.Linear(in_features=hidden_dim, out_features=hidden_dim)

        # Und hier die Parameter-Matrix vom letzten hidden Layer zum Output Layer
        # Das Output Layer hat zwei outputs, die den Wahrscheinlichkeiten für
        # die beiden Klassen entsprechen
        self.fc_4 = nn.Linear(in_features=hidden_dim, out_features=2)

        # Hier die Loss-Funktion. Wir wählen Cross-Entropy, eine gute 
        # Möglichkeit für ein Klassifikationsproblem
        self.loss = nn.CrossEntropyLoss()

        # Noch ein Demo-Input (das muss nicht unbedingt sein, aber es ist praktisch, 
        # falls man etwas testen will)
        self.example_input_array = torch.zeros(self.batch_size, 2)
        
        # Hier starten wir noch Listen fürs Plotten hinterher
        # Einmal die Loss-Funktion auf dem Training-Set
        self.train_loss = []
        
        # Und die Loss-Funktion auf dem Validierungs-Set
        self.val_loss = []
        
        # Hier endet die Init-Funktion der Klasse
        return

        
    # Jetzt kommt die zentrale Methode der Klasse, in der definiert wird,
    # wie ein Datenpunkt (genauer gesagt, ein Batch von Datenpunkten)
    # durch das Netz von vorne bis hinten durchgereicht wird
    
    # Hier können Sie beliebige Netzwerke konstruieren, mit allem, was PyTorch
    # so an Layern und anderen Dingen bietet. Wir starten einmal simpel: 
    # Nur ein paar fully-connected Layers und Aktivierungsfunktionen dazwischen, sonst nichts
    
    # Input-Vairable hier ist x, das für einen Batch (de facto eine Liste) von Inputs steht
    def forward(self, x):
        """
        Hier wird ein Dateninput durch das Netz geschleust
        """
        # Am Anfang müssen wir (leider) dafür sorgen, dass das Datenformat passt
        # Der Standard-Container für Daten in PyTorch ist ein sogenannter "Tensor"
        # Dieser speichert Werte an verschiedenen Stellen im KNN, aber gleichzeitig
        # auch noch die Gradienten an diesen Stellen, sodass beim Optimieren einfach
        # und schnell darauf zugegriffen werden kann
        x = torch.tensor(x).float()
        
        # x geht von Input zu hidden Layer 1
        x = self.fc_1(x)
        
        # x geht durch eine Sigmoid-Funktion
        x = torch.sigmoid(x)

        # x geht von hidden Layer 1 zu hidden Layer 2
        x = self.fc_2(x)
        
        # x geht durch eine Sigmoid-Funktion
        # x = torch.sigmoid(x)

        # x geht von hidden Layer 2 zu hidden Layer 3 (für später, falls gewünscht)
        # x = self.fc_3(x)
        
        # x geht durch eine Sigmoid-Funktion
        x = torch.sigmoid(x)

        # x geht ins Output Layer
        x = self.fc_4(x)
        
        # Die outputs werden zurückgegeben
        return x
    

    # Als nächstes wird definiert, was in einem Trainingsschritt alles passieren soll
    # Ein Trainingsschritt bedeutet hier, dass ein Batch von Daten innerhalb einer
    # Epoche zum Training verwendet wird
    
    # Der Batch und ein zugehöriger Index sind daher auch Inputs dieser Methode, die
    # man verwenden kann (aber nicht muss)
    def training_step(self, batch, batch_idx):
        
        # zunächst nehmen wir den Batch in die Inputs und Labels auseinander wie gewohnt
        X, y = batch
        
        # Hier kommt der sogenannte "forward pass", d.h. wir rufen "self" auf, was im
        # konkreten Fall eines Pytorch-Lightning oder PyTorch Moduls de facto die 
        # "forward"-Methode aufruft
        y_hat = self(X)
        
        # Wir berechnen die Loss-Funktion für diese Vorhersagen im Vergleich zu
        # den echten Labels
        loss = self.loss(y_hat, y)
 
        # und hier kommt ein Befehl, der die laufende Ausgabe während des Trainings
        # und das "Logging", also die Aufzeichnungen der Trainingsfortschritts
        # steuert. Logging ist sehr mächtig und kann vielfältig eingesetzt werden.
        # Z.B. kann es die Plots ersetzen, die wir hier nachher mit der Hand aus 
        # unseren Listen erzeugen werden.
        # Wir begnügen uns hier aber damit, einfach die laufende Anzeige zu verfolgen.
        self.log('train_loss', loss, on_step=False, on_epoch=True, prog_bar=True) 
    
        # hier hängen wir den Wert noch an eine unserer Listen an. Dazu müssen wir 
        # zunächst den Zahlenwert mit "detach" aus dem Tensor holen und danach in
        # ein Numpy-Array verwandeln, damit wir es nachher einfach verwenden können.
        self.train_loss.append(loss.detach().numpy())
    
        # Zurückgegeben wird hier der Wert des Losses, denn daran orientiert sich
        # der Optimierungsprozess, der hier fast komplett "unter der Motorhaube" läuft.
        return loss

    
    # Als nächstes wird definiert, was in einem Validierungsschritt alles passieren soll
    # Ein Validierungsschritt bedeutet hier, dass ein Batch von Daten innerhalb einer
    # Epoche aus dem Validierungsset verwendet wird
    
    # Diese Methode ist analog zu verwenden und zu schreiben wie der Trainingsschritt
    def validation_step(self, batch, batch_idx):

        X, y = batch
        
        y_hat = self(X)
        
        loss = self.loss(y_hat, y)
 
        # hier hängen wir den Loss-Wert an die entsprechende Liste für die Validierung an
        self.val_loss.append(loss.detach().numpy())
    
        self.log('val_loss', loss, on_step=False, on_epoch=True, prog_bar=True) 
        
        return loss
    

    # Als nächstes wird definiert, was in einem Testschritt alles passieren soll
    # Ein Testschritt bedeutet hier, dass ein Batch von Daten nach dem fertigen 
    # Training aus dem Testset verwendet wird
    
    # Diese Methode ist wieder analog zu verwenden und zu schreiben wie der Trainingsschritt
    def test_step(self, batch, batch_idx):

        X, y = batch
        
        y_hat = self(X)
        
        loss = self.loss(y_hat, y)
        
        # hier berechnen wir zusätzlich noch die Accuracy, so wie wir das auch in der
        # vergangenen Einheit bereits gemacht haben. Diesmal verwenden wir die Funktion,
        # wie Sie von PyTorch bereit gestellt wird
        acc = accuracy(y_hat, y)
 
        # Für den Log stellen wir diesmal zwei Variablen in einem Dictionary bereit
        metrics = {"test_acc": acc, "test_loss": loss}
    
        # und wir loggen dieses Dictionary
        self.log_dict(metrics)
        
        # außerdem wird das Dictionary zurückgegeben
        return metrics   
    

    # Jetzt kommt die (in PyTorch Lightning sehr kurze) Definition des zu verwendenden
    # Optimierungs-Algorithmus
    def configure_optimizers(self):

        # ein üblicher Algorithmus für Gradient Descent beim Deep Learning ist "Adam"
        # Hier wird übrigens die Schrittweite (der oben bereits erwähnte Hyperparameter
        # der "learning rate") definiert
        # Das erste Argument im Adam-Aufruf sind die zu optimierenden Parameter, hier
        # alle Parameter im Netz
        optimizer = optim.Adam(self.parameters(), lr=0.001)

        # Der eingerichtete Optimierungs-Algorithmus wird zurückgegeben
        return optimizer


    # Jetzt kommt die (optionale) Einrichtung der Daten nach bestimmten Ideen oder
    # Kriterien am Anfang des Trainings.
    # Wir nutzen dies, um die Aufteilung in Training, Validation und Test vorzunehmen
    
    # als Argument gibt es hier "stage", das wir aber nicht verwenden
    def setup(self, stage):
        
        # Zunächst erzeugen wir eine Instanz unserer Datensatz-Klasse von oben
        # Hier befinden sich nun unsere vorher erzeugten Daten, aber in leicht
        # zugänglichem Format 
        all_data = OurData()
        
        # Wir fragen die Länge des Datensatzes ab und schreiben sie raus
        data_length = len(all_data)
        print("Länge der gesamten Daten: ", data_length)
        
        # Als nächstes berechnen wir die Längen von Validierungs- und Test-Set
        # Für die Validierung nehmen wir 20% der Daten
        self.validation_number = int(data_length * 0.2)
        
        # Und auch zum Testen nehmen wir 20% der Daten
        self.test_number = int(data_length * 0.2)
        
        # Den Rest nehmen wir für das Training
        self.training_number = data_length - self.test_number - self.validation_number
        
        # die Ausgabe dieser Zahlen, zur Kontrolle
        print("Daten-Partitionierung:", self.training_number, self.validation_number, self.test_number, data_length)

        # Und hier wird der Datensatz dann aufgesplittet
        train_part, val_part, test_part = random_split(all_data, [self.training_number, self.validation_number, self.test_number])

        # Zum Schluss machen wir noch diese Teile des Datensatzes für die Instanz verfügbar
        self.train_dataset = train_part
        self.val_dataset = val_part
        self.test_dataset = test_part
        
        return
    
     
    # Hier definieren wir noch drei sogenannte "Dataloader". Das hat nur den Zweck, die
    # einzelnen Teile des Datensatzes den richtigen Prozessen beim Training, Validierung
    # und Testen zuzuordnen. Außerdem wird hier die Batchsize für die verschiedenen 
    # Prozesse eingestellt (die könnten auch verschieden sein).
    # Der Parameter "num_workers" ist etwas problematisch. Ich muss ihn auf dem Mac auf 0
    # setzen, dann läuft das Training gut und auch schnell. Auf anderer Hardware kann
    # damit eingestellt werden, wie viele Prozesse mit der Datenvorbereitung z.B. für die 
    # GPU beschäftigt sein sollen.
    def train_dataloader(self):
        return DataLoader(self.train_dataset, batch_size=self.batch_size, num_workers=0)

    def val_dataloader(self):
        return DataLoader(self.val_dataset, batch_size=self.batch_size, num_workers=0)

    def test_dataloader(self):
        return DataLoader(self.test_dataset, batch_size=self.batch_size, num_workers=0)
    

In [27]:

# So, nun ist es soweit. Alles ist vorbereitet und wir starten die Maschine so wie
# oben bereits angedeutet.

# definiere die Anzahl der maximalen Epochen vorab
epochs_to_use = 300

# Starten des PyTorch Lightning Trainers
# Die maximale Epochen ist auf 100 gesetzt, kann dann aber auch erhöht werden
trainer = pl.Trainer(max_epochs=epochs_to_use)

# Als nächstes erzeugen wir eine Instanz unserer eigenen Netzwerk-Python-Klasse,
# die hier das Machine-Learning-Modell ist
# Die Batch-Size sollte grundsätzlich eher groß gewählt werden. Für unsere 5000 Trainingspunkte
# mit 60-20-20-Aufteilung eignet sich 1000 gut.
# die Anzahl der Neuronen in den hidden Layers setzen wir erst einmal auf 8, später höher
model = OurNetwork(batch_size=1000, hidden_dim=8)

# Dann rufen wir das Training auf, analog zur vergangenen Einheit
trainer.fit(model)

# Und schließlich rufen wir den Test auf, das ist hier analog zum Training gecodet
trainer.test(model)

# und hier folgt der Output von PyTorch Lightning:

GPU available: False, used: False
TPU available: False, using: 0 TPU cores


  | Name | Type             | Params | In sizes  | Out sizes
------------------------------------------------------------------
0 | fc_1 | Linear           | 24     | [1000, 2] | [1000, 8]
1 | fc_2 | Linear           | 72     | [1000, 8] | [1000, 8]
2 | fc_3 | Linear           | 72     | ?         | ?        
3 | fc_4 | Linear           | 18     | [1000, 8] | [1000, 2]
4 | loss | CrossEntropyLoss | 0      | ?         | ?        
------------------------------------------------------------------
186       Trainable params
0         Non-trainable params
186       Total params
0.001     Total estimated model params size (MB)

Successfully created training data of length:  5000
Länge der gesamten Daten:  5000
Daten-Partitionierung: 3000 1000 1000 5000

--------------------------------------------------------------------------------
DATALOADER:0 TEST RESULTS
{'test_acc': 0.7630000114440918, 'test_loss': 0.5091737508773804}
--------------------------------------------------------------------------------

Out[27]:

[{'test_acc': 0.7630000114440918, 'test_loss': 0.5091737508773804}]

Das ist nun einmal recht gut gelaufen. Auch die Accuracy auf den Testdaten wissen wir bereits. Was ist aber beim Training genau passiert, und wie verhalten sich die Losses bei Training und Validation? Dafür machen wir jetzt noch einen Plot in alter Tradition.

In [28]:

# Erzeuge neue Figure
fig = plt.figure()

# Plotte zunächst die Trainings-Losses für jede Epoche. Dazu müssen wir nur ein
# Bisschen die Epochen von Trainingsteil und Validierungsteil vergleichbar machen.
# Wegen der Aufteilung der Datenpakete im Verhältnis 1:3 von Validation zu Training
# und der Aneinanderreihung der Werte für die Batches (nicht die Epochen) gibt es
# hier den entsprechenden Faktor zu entfernen.
plt.plot(np.arange(epochs_to_use*3)/3, np.array(model.train_loss), label="train")

# Hier der analoge Plot für die Validation-Losses
plt.plot(np.arange(epochs_to_use+1), np.array(model.val_loss), label="validation")

plt.legend(loc="upper right")

# Die Achsen kann man auf logarithmische Ansicht schalten, um mehr Details zu sehen
plt.yscale("log")
plt.xscale("log")

plt.show()

Hier sieht man, dass die Loss-Funktion beim Training etwas weiter nach unten geht als für die Validierung. Das bedeutet, die Labels im Validierungs-Set werden nicht so gut wiedergegeben wie jene im Trainingsset, was zu erwarten ist.

11.7 Übungsaufgabe: Experimentieren mit dem Beispiel-KNN in PyTorch Lightning¶

Nachdem Sie nun bis hierher durchgehalten haben, ist es an der Zeit, dass Sie selbst mit diesem Werkzeug experimentieren. Auch wenn es am Anfang unübersichtlich ist, werden Sie mit der Zeit dahinter kommen, wie die einzelnen Teile funktionieren und noch viel spannendere Netzwerke bauen können, als wir es hier getan haben. Hilfreich sind dabe auf jeden Fall grundsätzlich die Dokumentationen von PyTorch und PyTorch Lightning, aber das ist eher für spätere Versuche.

Für den Anfang bieten sich folgende Versuche an:

Ändern Sie die Dimension der hidden Layers (also die Anzahl der Neuronen dort) und beobachten Sie, was passiert.
Schalten Sie das dritte hidden Layer dazu und beobachten Sie, was passiert.
Nehmen Sie das zweite hidden Layer heraus und beobachten Sie, was passiert.
Versuchen Sie, die Test-Accuracy möglichst hoch hinaufzubringen.
Sie können auh den Trainingsdatensatz vergrößern (normalerweise bringen mehr Daten beim Deep Learning Vorteile).

Jedenfalls wünsche ich Ihnen dabei viel Vergnügen!

In [ ]:

Supervised Machine Learning: Grundlagen

Die Jupyter-Notebooks zur Lehrveranstaltung finden Sie im zugehörigen GitHub-Repository.

Supervised Machine Learning – Grundlagen

10 Supervised Machine Learning: Grundlagen¶

In dieser Einheit beschäftigen wir uns mit den Grundlagen des Supervised Machine Learnings. Der Begriff “supervised” bedeutet in diesem Zusammenhang, dass es zu jedem Datenpunkt einen Wert gibt, der die für das Machine Learning interessante Eigenschaft des Datenpunkts bezeichnet.

Das kann z.B. die Zuordnung zu einer Klasse (bei einem Klassifikationsproblem) sein, oder ein numerischer Wert (bei einem Regressionsproblem). Was auch immer es ist, der allgemeine Begriff dafür ist “Label”. Man spricht daher beim supervised Machine Learning auch grundsätzlich von “labeled data”, also annotierten Daten.

Im Gegensatz zum unsupervised Learning, das wir in der vorangegangenen Einheit behandelt und ausprobiert haben, gibt es hier also recht direkte Möglichkeiten, zu versuchen, dem eigenen Computerprogramm eine Vorhersagekraft für die Eigenschaften eines Datensatztes “beizubringen”. Dieser Prozess wird daher recht treffend auch als “Training” bezeichnet. Wie das genau vor sich geht, das werden wir uns noch etwas detaillierter ansehen.

Zunächst möchte ich Ihnen aber einfach einmal ein Beispiel für gelabelte Datensätze zeigen. Fangen wir gleich mit Daten für ein Klassifikationsproblem an. Zunächst aber noch die Imports für heute.

In [1]:

%matplotlib inline
import matplotlib.pyplot as plt # für plotting, wie gewohnt

import numpy as np              # für numerische Aktionen mit Arrays, wie gewohnt

# hier die Funktionen für die verschiedenen Schritte des Supervised Learning:

from sklearn.datasets import make_moons, make_circles # zur Erzeugung von Datensets

from sklearn.model_selection import train_test_split   # Aufteilen der daten in Train und Test

from sklearn.tree import DecisionTreeClassifier, plot_tree  # für Decision Tree Klassifikations-Algorithmus

from sklearn.metrics  import accuracy_score  # zum Einschätzen der Qualität der Vorhersage

10.1 Vorbereitung der Daten und der Labels für Supervised Learning mit Hilfe von Scikit-Learn¶

Zunächst müssen wir die Daten vorbereiten. Für viele Datensätze, die man z.B. auf kaggle.com finden kann, ist das zwar schon passiert, aber manchmal muss man da selbst noch etwas nachbessern. Das gilt vor allem dann, wenn man sich die Input-Daten (auch features genannt) und die Labels selbst aussuchen möchte. Damit wir allerdings nicht allzuviel Zeit damit zubringen, gibt es dafür eine kleine Abkürzung.

Wir werden hier einen Datensatz selbst erzeugen, und zwar bereits mit der Machine-Learning Package Scikit-Learn selbst. Dort gibt es eigene Funktionalität für die Erzeugung von Test-Datensätzen, die wir hier ausprobieren werden. Obwohl das sehr einfach geht und eigentlich “blind” verwendet werden kann, sehen wir uns genau an, wie die Daten zusammengesetzt und aufgebaut sind.

Ein Datensatz besteht aus einer Liste von $2$ Teilen:

Den Inputs/Features, als NumPy-Array, d.h. eine Matrix, in deren Zeilen die Input-Daten-Vektoren stehen
Den Labels als Array, allerdings nur als eindimensionales, weil dort für jeden Input-Vektor nur eine Zahl (die Klassen-ID) steht.

Mit Scikit-Learn kann man verschieden “geformte” 2D-Punktwolken erzeugen und diese als Datensätze ausgeben lassen. Dazu verwenden wir Funktionen aus dem Modul _sklearn.datasets_:

In [6]:

# Erzeuge einen mondförmigen Datensatz mit 2 Klassen (also 2 Mond-Punktwolken)
# noise bedeutet, wie sehr die Monde "zerstreut" werden
# der random_state sorgt wieder für Reproduzierbarkeit
raw_data = make_moons(n_samples=500, noise=0.1, random_state=0)

# Der Output hat zwei Teile, der erste sind die Inputs
input_data = raw_data[0]

# der zweite sind die Labels
label_data = raw_data[1]

# Sehen wir uns das kurz an
# Die ertsen 10 Input-Daten
print("Features:\n", input_data[:10])

# Die Labels (und zwar alle 500)
print("Labels:\n", label_data)

Features:
 [[ 0.36203373  0.9014949 ]
 [-0.19235477  0.46843193]
 [ 0.13782021  0.10441207]
 [ 1.74566019 -0.12007051]
 [ 1.92715809 -0.23854152]
 [ 1.17773635  0.22713419]
 [ 0.26188662 -0.27885379]
 [ 2.0414255   0.36255569]
 [-0.62473358  1.11320091]
 [-0.36293508  1.03806201]]
Labels:
 [0 1 1 1 1 0 1 1 0 0 0 1 1 1 0 1 1 1 0 0 0 1 0 0 0 1 0 1 0 0 1 0 0 0 1 1 1
 1 1 0 1 0 1 0 0 0 0 1 1 0 1 0 1 0 0 0 1 0 0 1 0 1 1 1 1 0 0 1 1 0 0 0 1 1
 0 1 1 0 1 1 1 0 1 0 1 1 1 0 1 0 0 1 1 0 0 1 0 1 0 0 0 1 0 1 0 1 0 0 1 0 1
 0 0 0 1 1 1 1 0 0 1 0 0 1 1 0 0 1 1 1 1 0 1 0 1 1 1 1 1 0 0 0 0 0 1 0 1 1
 0 0 0 1 0 1 0 0 0 0 1 0 1 0 0 1 0 0 1 1 1 1 1 0 1 1 1 0 1 0 1 1 1 0 0 1 0
 1 1 1 1 0 1 1 0 1 1 1 1 0 0 0 0 0 0 1 0 1 0 1 0 1 1 0 0 1 0 1 0 0 0 1 0 0
 0 0 1 1 0 0 0 0 1 0 1 0 1 1 1 0 0 1 0 0 1 1 1 1 1 0 0 0 1 0 0 0 0 0 0 0 1
 0 0 0 1 0 1 1 1 0 0 1 1 0 1 1 0 0 0 1 1 1 0 1 0 0 0 0 1 0 0 0 0 0 0 0 1 1
 0 1 1 0 1 1 0 1 1 1 0 0 0 1 1 0 0 0 0 1 0 1 0 0 1 1 1 1 1 0 1 0 1 1 1 0 1
 0 1 0 1 1 0 0 1 1 1 1 1 0 1 0 1 1 0 1 0 1 0 1 0 0 1 0 0 1 1 1 0 0 0 1 0 0
 0 0 1 0 0 1 1 0 1 1 1 0 1 1 0 1 0 1 0 0 1 0 1 1 0 1 0 0 0 1 0 1 0 1 1 1 1
 0 0 0 1 1 1 1 1 0 0 1 0 1 1 0 1 1 1 1 0 0 1 1 1 1 0 1 0 1 1 0 1 0 0 1 0 0
 0 0 0 0 0 0 1 1 1 1 1 1 0 1 1 0 0 1 1 1 1 0 0 1 0 1 1 0 1 0 0 1 1 0 1 0 0
 1 1 0 1 0 0 1 0 1 0 0 1 0 1 1 0 0 0 0]

In [7]:

# sehen wir uns das am besten gleich mal als Plot an
fig=plt.figure()

# setzen wir das Skalenverhältnis von x und y auf 1
ax = plt.gca()
ax.set_aspect(1)


# Ein Scatterplot, wie wir ihn schon gewohnt sind, mit Farben nach Klassen
plt.scatter(*np.transpose(input_data), c=label_data)

plt.show()

Supervised Machine Learning: Grundlagen 7

Das sieht wirklich sehr schön mondförmig aus (mit dem anfänglichen Wert von noise von $0.1$. Das “Rauschen” könnten wir allerdings auch etwas aufdrehen, z.B. auf $0.9$, dann sieht das so aus:

In [8]:

# noise ist diesmal auf 0.9 gesetzt
raw_data = make_moons(n_samples=500, noise=0.9, random_state=0)

# Der fertige Datensatz hat zwei Teile, der erste sind die Inputs
input_data = raw_data[0]

# der zweite sind die Labels
label_data = raw_data[1]

# sehen wir uns das am besten gleich mal als Plot an
fig=plt.figure()

# Achsen-Skalen-Ratio wieder auf 1 setzen
ax = plt.gca()
ax.set_aspect(1)

# Der gleiche Scatterplot, mit Farben nach Klassen
plt.scatter(*np.transpose(input_data), c=label_data)

plt.show()

EJipH0jLwCnhHNycF4Ibtp3GpymiuuCkNQeunyik1KYubUoWyuClVKIubUoWyuClVKIubUoWyuClV6A9C2SksG61IXQAAAABJRU5ErkJggg==

Von Monden ist hier nicht mehr so viel zu sehen, aber man kann sie noch erahnen (wenn man es weiß). Lassen wir mal für die folgenden Experimente mit den verschiedenen Classifiern den noise-Wert auf $0.9$, damit es etwas interessanter wird.

10.2 Ausgewogenheit der Daten beim Supervised Learning¶

Eine Sache ist jedoch noch wichtig zu erwähnen, bevor wir zum Training kommen. Und zwar handelt es sich dabei um die Ausgewogenheit des Datensatzes, was die Labels betrifft. Es ist grundsätzlich wichtig auf einen ausgewogenen (balanced) Datensatz zu achten, damit es nicht zu (teilweise brutalen) Artefakten bei Vorhersagen kommt.

Als extremes Beispiel stellen Sie sich kurz einen anderen Datensatz vor, bei dem es $99$ Daten der einen Klasse und nur einen einzigen Datenpunkt aus der anderen Klasse gibt. Auf diesen Daten ein gutes Modell zu trainieren, ist sehr schwierig. Aber es ist außerdem noch genauso schwierig, ein gutes Modell von einem komplett einseitigen Modell zu unterscheiden, und das kommt so:

Ein Modell, das immer nur die vorherrschende Klasse vorhersagt, liegt damit nämlich bereits zu $99$ Prozent richtig. Das ist eigentlich für jedes Machine-Learning-Problem eine beeindruckende Performance. Trotzdem ist das Modell eigentlich unbrauchbar, gerade dann, wenn es auf die seltenen Fälle (aus der wenig repräsentierten Klasse) ankommt, weil man z.B. die Ausnahmen gut vorhersagen will.

Das Fazit dieses kurzen Ausflugs: Ein ausgewogener Datensatz ist sehr wichtig für erfolgreiches Training. Schauen wir kurz nach, wie ausgewogen unser Datensatz mit den Monden ist:

In [11]:

# sehen wir uns grafisch an, wie die Labels in diesem Datensatz verteilt sind
fig = plt.figure()

# Erzeuge ein Histogramm der Labels
plt.hist(label_data, bins=[0, 1, 2], width=0.3)

# setze die x-Werte auf die Klassen-Indizes fest
plt.xticks([0, 1])

# Titel und Achsenbeschriftungen
plt.title("Moons Test Dataset")
plt.xlabel("Label")
plt.ylabel("Count")

# Plot anzeigen
plt.show()

Diese Verteilung ist hier also schön ausgeglichen, so wie es sein soll, wir haben hier also unsere “balanced data”. Damit haben wir jetzt was die Vorbereitung der Daten betrifft unsere Schuldigkeit getan und können damit den nächsten Schritte tun.

10.2 Die wichtigsten Schritte beim Supervised Learning im Allgemeinen¶

Das Prozedere beim Supervised Learning ist üblicherweise folgendermaßen:

Die Daten werden zunächst vorbereitet und überprüft (das haben wir gerade getan).
Dann werden die Daten in zwei (oder drei) Teile geteilt, nämlich in einen Trainings-Teil und einen Test-Teil (und einen Validierungsteil, damit man Hyper-Parameter tunen kann, dazu kommen wir in der nächsten Einheit).
Der Trainingsteil sollte üblicherweise größer sein als der Rest, z.B. $80$ – $10$ – $10$ Prozent oder $60$ – $20$ – $20$. Wir werden es uns hier einfach machen und $80$ zu $20$ Prozent aufteilen und auf ein separates Validierungsset verzichten.
Beim Aufteilen werden die Daten üblicherweise auch durchgemischt. Das führt dazu, dass nicht lauter gleiche Labels hintereinander kommen, sondern auch die Reihenfolge ausbalanciert ist (wichtig fürs Training).
Dann bekommt der Machine-Learning-Algorithmus die Trainingsdaten, um sie zu fitten. Das geschieht je nach Algorithmus auf verschiedene, geeignete Arten.
Anschließend wird das erhaltene Machine-Learning-Modell auf den Testdaten ausprobiert. Das bedeutet, man schickt die Testdaten durch das Modell und vergleicht die vorhergesagten Ergebnisse mit den tatsächlichen Labels der Daten.
Beim Testen erhält man einen Score, z.B. das Verhältnis von richtig vorhergesagten Datenpunkten zu falsch vorhergesagten.
Je besser dieser Score, desto besser. Allerdings sollte man jedenfalls besser sein als zufälliges Raten, was z.B. bei $2$ Klassen $50$ Prozent wäre.

Für alle diese Dinge verwenden wir durchgängig die Package Scikit-Learn, aus der wir ja in der vergangenen Einheit auch bereits die Algorithmen für das Unsupervised Learning importiert hatten.

10.3 Aufteilen der Daten in Trainingsdaten und Testdaten¶

So, nun konkret zu den Schritten. Teilen wir zunächst die Daten auf. Das geht ganz einfach mit einer Funktion aus Scikit-Learn, nämlich:

In [12]:

# üblicherweise werden Daten beim Supervised Learning als X und y bezeichnet
# Ja, das X ist wirklich groß und das y ist wirklich klein geschrieben :)
# Hier bekommen wir eine zufällige Aufteilung (shuffle bedeutet durchmischen)
# Für reproduzierbare Aufteilung den random_state auf einen Integer setzen
X_train, X_test, y_train, y_test = train_test_split(input_data, label_data, test_size=0.2,
                                                    random_state=None, shuffle=True)

# hier der Anfang von X_train
X_train[:5]

Out[12]:

array([[ 1.20762976, -0.06936382],
       [-1.10272156, -0.83486623],
       [ 2.14888567,  0.42380907],
       [ 2.57691521,  1.10126134],
       [ 2.47763826, -0.73174052]])

In [13]:

# und die Labels dazu
y_train[:5]

Out[13]:

array([1, 0, 1, 1, 1])

In [14]:

# Sehen wir uns die Verteilung der Punkte im Plot an
fig=plt.figure(figsize=(15,8))

# Subplot für die Trainingsdaten
ax1 = plt.subplot(1,2,1)
ax1.set_aspect(1)

# Ein Scatterplot für die Trainingsdaten, mit Farben nach Klassen
ax1.scatter(*np.transpose(X_train), c=y_train)

ax1.set_title("Train")

# Subplot für die Testdaten
ax2 = plt.subplot(1,2,2)
ax2.set_aspect(1)

# Ein Scatterplot für die Testdaten, mit Farben nach Klassen
ax2.scatter(*np.transpose(X_test), c=y_test)

ax2.set_title("Test")


plt.show()

Das Modell soll also anhand der Punkte (mit Labels) auf der linken Seite lernen und die Punkte auf der rechten Seite möglichst richtig klassifizieren können, ohne diese beim Training gesehen zu haben.

10.4 Supervised Learning: Das Training am Beispiel Decision Tree¶

Jetzt können wir unsere Daten bereits in ein Machine-Learning-Modell füttern. Als Beispiel eignen sich hier einige aus dem Supervised-Learning-Fundus von Scikit-Learn. Wir beginnen mit einem Decision Tree (Entscheidungsbaum). Dabei geht es darum, aus den Werten einzelner Inputs bzw. features Entscheidungen abzuleiten, die dann zum richtigen Ergebnis führen (im Mittel auf den Trainingsdaten). Beispiele dafür in unserem Fall wären Statements wie

Wenn $x<-0.5$, dann ist das Klasse 0
Wenn $x>0.5$, dann ist das Klasse 1
Wenn $-0.5<x<0.5$ und $y>1$, dann ist das Klasse 0
usw.

Jetzt aber zum konkreten Aufruf für das Training. In Scikit-Learn sind alle Algorithmen fix und fertig implementiert, sodass man sie im Prinzip nur starten muss. Dazu muss man meist eine Instanz einer Klasse erzeugen, die wir im Allgemeinen dann direkt als “Modell” bzw. model bezeichnen, und dann dafür einen “Fit” aufrufen, womit das Training gemeint ist.

In [15]:

# Aufruf der Klasseninstanz für den Decision Tree Hier könnte man auch noch
# diverse Parameter einstellen, wir schenken uns das aber für den Moment einmal
model = DecisionTreeClassifier()     

# damit ist jetzt das Modell definiert, und wir können diese Instanz verwenden

# Aufruf des Fits. Danach hat die Instanz die Ergebnisse des Trainings parat
# Dieser Teil kann, je nach Komplexität der Daten und des Modells, eine Zeit lang dauern
model.fit(X_train,y_train)

Out[15]:

DecisionTreeClassifier()

In [16]:

# Als nächstes rufen wir die Vorhersage der Werte auf dem 
# Test-Teil des Datensatzes auf. Zur Erinnerung: Diese Daten hat
# das Modell während des Trainings nicht gesehen
y_prediction = model.predict(X_test)
 
# Das Ergebnis ist einfach ein Vektor mit vorhergesagten Labels
# Was sind z.B. die ersten 5 Predictions aus dem Test-Set?
y_prediction[:5]

Out[16]:

array([1, 0, 1, 0, 0])

In [17]:

# Und wie vergleicht sich das mit den echten Labels auf dem Testset?
y_test[:5]

Out[17]:

array([1, 0, 1, 0, 1])

In [18]:

# naja, das ist noch nicht sehr aussagekräftig.

# Plotten wir nun das Test-Set zweimal, eimmal mit den echten Klassen gefärbt,
# einmal mit den vorhergesagten
fig=plt.figure(figsize=(15,8))

# Subplot für die echten Test-Daten und Labels
ax1 = plt.subplot(1,2,1)
ax1.set_aspect(1)

# Ein Scatterplot für die Testdaten, mit Farben nach echten Klassen
ax1.scatter(*np.transpose(X_test), c=y_test)

ax1.set_title("Actual")

# Subplot für die Testdaten mit vorhergesagten Labels
ax2 = plt.subplot(1,2,2)
ax2.set_aspect(1)

# Ein Scatterplot für die Testdaten, mit Farben nach vorhergesagten Klassen
ax2.scatter(*np.transpose(X_test), c=y_prediction)

ax2.set_title("Prediction")


plt.show()

Supervised Machine Learning: Grundlagen 11

In [19]:

# Das ist im ersten Moment etwas schwer zu erkennen ...
# wir könnten aber auch noch die Unterschiede markieren ...
fig=plt.figure(figsize=(15,8))

# definiere Farbenliste je nach übereinstimmenden Labels (oder unterschiedlichen)
edge_colors = []

# Loop über gezippte Arrays für echte und vorhergesagte Labels
for test_point, pred_point in zip(y_test,y_prediction):
    
    # Überprüfe, ob die Labels sich unterscheiden
    if test_point != pred_point:
        
        # Ja, unterscheiden sich, umrande den Punkt rot
        edge_colors.append('r')
        
    else:
        
        # Nein, sind gleich, umrande den Punkt weiß (d.h. nicht)
        edge_colors.append('w')


# Subplot für echte Labels
ax1 = plt.subplot(1,2,1)
ax1.set_aspect(1)

# Ein Scatterplot für die Testdaten, mit Farben nach echten Klassen und mit Rändern für Unterschiede
ax1.scatter(*np.transpose(X_test), c=y_test, edgecolors=edge_colors)

ax1.set_title("Actual")

# Subplot für vorhergesagte Labels
ax2 = plt.subplot(1,2,2)
ax2.set_aspect(1)

# Ein Scatterplot für die Testdaten, mit Farben nach vorhergesagten Klassen und mit Rändern für Unterschiede
ax2.scatter(*np.transpose(X_test), c=y_prediction, edgecolors=edge_colors)

ax2.set_title("Prediction")

# die Unterschiede sollten jetzt besser zu erkennen sein
plt.show()

Supervised Machine Learning: Grundlagen 12

10.5 Supervised Learning: Überprüfen der Genauigkeit der Vorhersagen des Machine-Learning-Modells¶

Als nächstes wollen wir nun wissen, wie gut unsere Vorhersagen quantitativ sind. Dazu vergleichen wir die Output-Labels des Modells mit den tatsächlichen Labels des Test-Sets. Dafür gibt es in Scikit-Learn mehrere sogenannte _metrics_, die wir ebenfalls einfach aufrufen können, z.B. _accuracy_, das ist im Wesentlichen der Anteil der korrekten Vorhersagen an allen Vorhersagen.

In [30]:

# Berechne Metrik accuracy für die Qualität der Vorhersage
accuracy_score(y_test, y_prediction)

Out[30]:

0.7

Ist das jetzt gut oder nicht? Erinnern wir uns, dass die Hälfte der Daten Klasse $0$ ist, die andere Hälfte Klasse $1$. Das bedeutet, dass ein rein zufälliges Raten zu $50$ Prozent Genauigkeit führen müsste. Checken wir das einmal kurz ganz einfach, indem wir zufällig gewählte Klassen-Indizes mit den Test-Labels vergleichen:

In [29]:

# Berechne die Metrik accuracy für eine Zufallsauswahl aus 0en und 1en
accuracy_score(y_test, np.random.choice([0, 1], size=len(y_test), replace=True))

Out[29]:

0.51

Das ist tatsächlich in der Nähe von $50$ Prozent. Die Abweichung kommt daher, dass wir hier mit $100$ Testdaten arbeiten, und das vergleichsweise wenige sind, sodass eine solche Abweichung vorkommen kann. Dagegen kann man allerdings die Qualität des Decision Trees nicht von vornherein einschätzen. Vielleicht können wir den ja noch etwas besser machen.

10.6 Verbessern eines Machine-Learning-Modells beim Supervised Learning durch Verändern der Parameter am Beispiel Decision Tree¶

In der folgenden Zelle kommt ein Aufruf, der zu einem weiteren Modell, model1, führt. Dabei werden wir die Struktur eines Decision Trees intuitiv etwas besser kennen lernen. Ein solcher Baum hat eine oder mehrere Verzweigungen, die zu weiteren Verzweigungen (in einer bestimmten Anzahl von Ebenen) oder “Blättern” führen können. Alle diese Teile heißen auf englisch nodes.

Man kann nun den Baum auf ein paar Arten einschränken, sodass z.B.:

Eine maximale Anzahl von Blättern erlaubt ist
Eine maximale Anzahl von Verzweigungs-Ebenen erlaubt ist

Diese beiden Parameter werden wir nun bei der Erzeugung der Instanz mit übergeben und so unseren Baum einschränken. Keine Sorge, sie werden gleich sehen, was das bedeutet und wie sich der Baum verändert, denn wir können ihn mit Hilfe einer plot_tree Funktion auch gleich visualisieren.

Grundsätzlich gilt, dass ein Baum nicht mehr Blätter haben kann, als seine Verzweigungen zulassen, die jeweils immer nur von einem node in der höheren Ebene zu zwei nodes in der darunter liegenden Ebene führen können. Bei Einer Ebene kann es also maximal zwei Blätter geben, bei zwei Ebenen vier Blätter, etc. Daher können wir die max_leaf_nodes auf eine größere Zahl setzen, z.B. auf $10$, und dann wird die maximale Anzahl der Ebenen im Wesentlichen bestimmen, wie viele Nodes und Ebenen wie verwendet werden.

Fangen wir mit einer Ebene an und gehen wir dann einfach mit dem Parameter max_depth immer höher. Diese Zellen setze ich hier einfach mehrfach untereinander

In [33]:

# hier also nochmal der Aufruf mit den beiden besprochenen Optionen, maximal eine Subebene
model_1 = DecisionTreeClassifier(max_depth=1, max_leaf_nodes=10)

# training des neuen Modells
model_1.fit(X_train,y_train)

# Vorhersage auf den Test-Daten
y_prediction = model_1.predict(X_test)

# und Genauigkeitsberechnung
print("Accuracy:", accuracy_score(y_test, y_prediction))

# das Plotten funktioniert genau wie sonst auch bei Figures
fig = plt.figure(figsize=(15,10))

# hier die Funktion für das Plotten des Baums
plot_tree(model_1, fontsize=15)

# und Anzeigen
plt.show()

Accuracy: 0.68

Die Relation in der ersten Zeile des Verzweigungsnodes ist die Bedingung, nach der die Datenpunkte aufgeteilt werden. Die Anzahl der aufgeteilten Punkte steht dann jeweils in den Nodes in der darunterliegenden Ebene. “gini” ist das Entscheidungskriterion, um eine optimale Bedingung zu finden. Konkret ist es ein Maß für die “Unterschiedlichkeit” in der Gruppe von Datenpunkten, sollte also idealerweise möglichst klein sein. Und im Array “value” finden sich die Anzahlen für die Klassenanteile der Daten in dieser Gruppe/diesem Node.

Weiter geht es mit einer Subebene mehr:

In [34]:

# hier nochmal, diesmal mit 2 Subebenen
model_1 = DecisionTreeClassifier(max_depth=2, max_leaf_nodes=10)

# training des neuen Modells
model_1.fit(X_train,y_train)

# Vorhersage auf den Test-Daten
y_prediction = model_1.predict(X_test)

# und Genauigkeitsberechnung
print("Accuracy:", accuracy_score(y_test, y_prediction))

# wieder plotten
fig = plt.figure(figsize=(15,10))

# der gleiche Baum-Plotbefehl wie vorhin
plot_tree(model_1, fontsize=15)

# und Anzeigen
plt.show()

Accuracy: 0.65

In [35]:

# und nochmal, diesmal mit 3 Subebenen
model_1 = DecisionTreeClassifier(max_depth=3, max_leaf_nodes=10)

# training des neuen Modells
model_1.fit(X_train,y_train)

# Vorhersage auf den Test-Daten
y_prediction = model_1.predict(X_test)

# und Genauigkeitsberechnung
print("Accuracy:", accuracy_score(y_test, y_prediction))

# wieder Plotten
fig = plt.figure(figsize=(15,10))

# der Baum
plot_tree(model_1, fontsize=15)

# und Anzeigen
plt.show()

Accuracy: 0.67

Supervised Machine Learning: Grundlagen 15

In [38]:

# und noch ein letztes Mal, diesmal mit 4 Subebenen, dafür reichen 
# die 10 Blätter bereits nicht mehr ganz zum Ausfüllen aus
model_1 = DecisionTreeClassifier(max_depth=4, max_leaf_nodes=10)

# training des neuen Modells
model_1.fit(X_train,y_train)

# Vorhersage auf den Test-Daten
y_prediction = model_1.predict(X_test)

# und Genauigkeitsberechnung
print("Accuracy:", accuracy_score(y_test, y_prediction))

# Plotten
fig = plt.figure(figsize=(15,10))

# der Baum
plot_tree(model_1, fontsize=15)

# und Anzeigen
plt.show()

Accuracy: 0.68

AAAAAOCIQAUAAAAAjghUAAAAAOCIQAUAAAAAjghUAAAAAOCIQAUAAAAAjghUAAAAAOCIQAUAAAAAjghUAAAAAOCIQAUAAAAAjghUAAAAAOCIQAUAAAAAjghUAAAAAOCIQAUAAAAAjghUAAAAAOCIQAUAAAAAjghUAAAAAOCIQAUAAAAAjghUAAAAAOCIQAUAAAAAjghUAAAAAOCIQAUAAAAAjghUAAAAAOCIQAUAAAAAjghUAAAAAOCIQAUAAAAAjghUAAAAAOCIQAUAAAAAjghUAAAAAOCIQAUAAAAAjghUAAAAAODoP+eSgBhr9hlIAAAAAElFTkSuQmCC

Hier kann man sich sehr schön die Entwicklung der Bäume mit immer mehr Unter-Ebenen ansehen. Ebenso schön sieht man, wie der Baum versucht, die Datenpunkte möglichst gut und clever aufzuteilen, und wie manche der Blätter-Nodes sogar schon eine 0 auf einer Seite der “values” stehen haben. Was ist aber jetzt eigentlich mit der Genauigkeit insgesamt passiert? Sehen wir nach:

Bereits bei der Einschränkung auf eine Ebene hatte sich der Wert der accuracy etwas verschlechtert, und dann bei zwei Ebenen nochmal. Bei drei Ebenen und dann auch bei vier Ebenen ist der Wert der accuracy allerdings wieder besser geworden, d.h., wie der Baum aussieht, spielt hier eine Rolle. Aber Achtung: Wie gut der Baum performt, kann von verschiedenen Dingen abhängen:

Von dem Datensatz, der untersucht wird
Von der Ausgeglichenheit des Datensatzes
Von der (zufälligen) Aufteilung in Training und Test

Wenn sich davon etwas ändert, z.B. die Train-Test-Aufteilung, dann kann die Performance-Kurve für unsere Daten und für die gewählten Parameter durchaus anders aussehen und auch umgekehrte Trends aufweisen.

Kommen wir aber nochmal zum Anfang zurück: Da wir dort (ohne Optionen im Aufruf) ja im Prinzip den besten Performance-Wert erhalten hatten, stellt sich die Frage:

Was haben wir denn da dann ursprünglich eigentlich für einen Baum verwendet? Hier ist er:

In [44]:

# nochmal Plotten 
fig = plt.figure(figsize=(15,10), dpi=150)

# hier die Funktion für das Plotten des ersten Baums ohne jegliche Parameter
# die Fontsize ist hier etwas kleiner gewählt, damit man die Boxen besser im Überblick sieht
plot_tree(model, fontsize=4)

# und Anzeigen
plt.show()

Insgesamt sieht man hier, dass Supervised Learning viel mit Verständnis der Situation, der Daten, des Modells, dessen Möglichkeiten und der Hintergründe zu tun hat. Insgesamt ist hier auf jeden Fall die eigene Erfahrung wesentlich, denn nur über solche Dinge nachzulesen hilft für viele Probleme nicht weiter.

Damit Sie selbst gleich ein Bisschen Erfahrung sammeln können, kommen wir daher jetzt zur Übungsaufgabe dieser Einheit:

10.7 Übungsaufgabe: Experimentieren mit Supervised-Learning Algorithmen aus der Scikit-Learn Package¶

Nach dieser Einführung wissen Sie folgendes:

Wie ein Datensatz beim Supervised Learning strukturiert ist
Wie man einfache Datensätze zum Trainieren in Python mit Scikit-Learn erzeugen kann
Wie Supervised Learning grundsätzlich abläuft
Wie Sie einfache Modelle mit Scikit-Learn trainieren
Wie Sie mit einem trainierten Modell Vorhersagen machen
Wie Sie die Qualität einer Vorhersage auf einem Test-Set überprüfen
Wie Sie Ergebnisse und andere hilfreiche Informationen visualisieren können

Diese Vorgehensweise ist immer die gleiche. In Scikit-Learn ist auch die grundsätzliche Code-Struktur immer gleich. Wenn Sie also eine Instanz eines Machine-Learning-Modells erzeugt haben, dann funktioniert das Training und die Vorhersagen immer gleich. Alles, was Sie austauschen müssen, sind die Modell-Aufrufe (und die eventuell damit verbundenen Parameter).

Gehen Sie nun in der Scikit-Learn-Übersicht für Supervised Learning auf die Suche nach weiteren interessanten Algorithmen, die Sie gerne auf unseren Datensatz loslassen würden. Oder erzeugen Sie einen eigenen Datensatz nach Ihren Wünschen und experimentieren Sie damit. Ich wünsche viel Vergnügen!

Hier schon mal ein paar Zeilen als Inspiration/Start, denn die Möglichkeiten sind sehr vielfältig und umfangreich (damit könnten wir mehrere zusätzliche Lehrveranstaltungen füllen).

In [ ]:

from sklearn.svm import SVC   # für Support-Vector Machine
from sklearn.naive_bayes import GaussianNB   # für Naive Bayes Classifier
from sklearn.neighbors import NearestNeighbors   # für Nearest-Neighbor

Unsupervised Machine Learning: Clustering von Daten

Leave a reply

Die Jupyter-Notebooks zur Lehrveranstaltung finden Sie im zugehörigen GitHub-Repository.

Unsupervised Machine Learning – Clustering von Daten

9 Unsupervised Machine Learning: Clustering von Daten¶

In dieser Einheit Beschäftigen wir uns mit einer interessanten Methode, um Daten zu “ordnen”, dem Clustering. Damit tauchen wir ein Stück in das Gebiet des Machine Learnings ein, genauer gesagt, gehört dieser Ansatz zum sogenannten “unsupervised learning”. Das bedeutet, dass man über den Datensatz nicht allzuviel wissen muss, um ihn in Kategorien (bzw. Cluster) einteilen zu können oder ihn besser verstehen zu lernen.

Allerdings ist auch nicht von vornherein klar, dass es eine Struktur in den Daten gibt, die eine signifikante Bedeutung hat. Damit Sie das besser verstehen, sehen wir uns am besten gleich ein Beispiel an. Ich habe diemal wieder ein Stück aus einem Dataset von kaggle.com vorbereitet. Genauer gesagt, von der folgenden Quelle: https://www.kaggle.com/datasets/grisme/hourly-snapshots-of-lightning-network Nehmen Sie eine beliebige CSV Datei aus dem Unterordner “nodes” des Datensatzes (wir verwenden hier _2019_12_11_16_0537.csv) und benennen Sie diese entsprechend auf ‘lightning_strokes.csv’ um. Im Moodle finden Sie dieses Beispiel fertig zum Download, sodass Sie sich nicht das gesamte Dataset herunterladen müssen.

Hier aber zunächst noch die Imports für heute:

In [1]:

%matplotlib inline
import matplotlib.pyplot as plt # für plotting, wie gewohnt

import numpy as np              # für numerische Aktionen mit Arrays, wie gewohnt

import pandas as pd             # für das Einlesen der Daten

import os                       # Funktionen zum OS

from sklearn.cluster import AgglomerativeClustering  # für Clusteringmethode 1
from sklearn.cluster import DBSCAN                   # für Clusteringmethode 2
from sklearn.cluster import KMeans                   # für Clusteringmethode 3

In [2]:

# Lade Daten aus einer der Dateien
raw_data = pd.read_csv(os.path.join('data', 'lightning_strokes.csv'), delimiter=',')

# Nimm nur jene Zeilen, wo es geografische Koordinaten gibt. Das bedeutet
# in diesem Fall Koordinaten, die ungleich 0 sind
raw_data_notempty = raw_data[raw_data["geo"] != "{'latitude': 0, 'longitude': 0}"]

# Aus diesen Daten, extrahiere die Spalte "geo"
raw_data_coordinates = raw_data_notempty["geo"]

# Wie sieht das aus?
raw_data_coordinates.head(20)

# das ist jetzt im Prinzip eine Reihe von Dictionaries. 
# Wir machen daraus als nächstes ein NumPy-Array

Out[2]:

0         {'latitude': 51.2993, 'longitude': 9.491}
1      {'latitude': 39.9653, 'longitude': -83.0235}
3       {'latitude': 58.4167, 'longitude': 15.6167}
6        {'latitude': 52.0947, 'longitude': 5.0947}
7        {'latitude': 37.751, 'longitude': -97.822}
11     {'latitude': 38.6582, 'longitude': -77.2497}
14      {'latitude': 44.4914, 'longitude': 26.0602}
15       {'latitude': 46.2022, 'longitude': 6.1457}
16     {'latitude': 32.7824, 'longitude': -97.3003}
18    {'latitude': 37.4056, 'longitude': -122.0775}
20     {'latitude': 43.7801, 'longitude': -79.3479}
21       {'latitude': 50.2279, 'longitude': 9.3478}
25                {'latitude': 56, 'longitude': 24}
26      {'latitude': 32.2827, 'longitude': 34.9105}
29       {'latitude': 40.4172, 'longitude': -3.684}
31     {'latitude': 40.7185, 'longitude': -74.0025}
34       {'latitude': 52.3824, 'longitude': 4.8995}
38     {'latitude': 39.0481, 'longitude': -77.4728}
40     {'latitude': 41.9399, 'longitude': -87.6528}
42      {'latitude': 56.6616, 'longitude': 16.3616}
Name: geo, dtype: object

In [3]:

# das ist eine kleine Fingerübung in String Manipulation und impliziten Listen
data_array = np.array([ [(a_string.strip("{}").split())[3].strip(","),
                         (a_string.strip("{}").split())[1].strip(",")]
                        for a_string in raw_data_coordinates.to_numpy()
                      ]).astype(float)

In [4]:

# somit haben wir ein Array von floats
data_array

Out[4]:

array([[  9.491 ,  51.2993],
       [-83.0235,  39.9653],
       [ 15.6167,  58.4167],
       ...,
       [ -9.2545,  38.7566],
       [-73.9644,  40.679 ],
       [135.52  ,  34.6864]])

In [5]:

# sehen wir uns diese Daten mal an. Werden die sich fürs Clustern eignen?
fig = plt.figure(figsize=(15,10))

# setze einen geeigneten Wert für das Bild-Seitenverhältnis
ax = plt.gca()
ax.set_aspect(.75)

# Ein Scatterplot, wie wir ihn schon gewöhnt sind
plt.scatter(*np.transpose(data_array))

# Achsenbeschriftungen
plt.xlabel("Longitude")
plt.ylabel("Latitude")

plt.show()

Unsupervised Machine Learning: Clustering von Daten 19

9.1 Was ist bzw. macht ein Clustering-Algorithmus eigentlich?¶

Bevor wir uns jetzt ans Clustering machen, möchte ich noch eine Runde erklären, was das eigentlich kann und tun soll. Dadurch wird sich auch die Frage beantworten, die ich gerade vorher im Kommentar gestellt habe, nämlich: Werden diese Daten sich fürs Clustern eignen?

Ein Clustering-Algorithmus teilt einen Datensatz in Gruppen ein. Das passiert auf der Basis der Eigenschaften der Daten untereinander, z.B. wie “benachbart” sie sind (was auch immer das dann im Detail heißen mag). Wenn wir Daten haben, die 2-dimensionalen Koordinaten entsprechen (so wie in unserem Beispiel), dann ist die Sache recht anschaulich. Das werden wir hier also auch so verwenden und uns ansehen. Das muss aber nicht so sein. Sie können Daten verwenden, für die eine Ähnlichkeit recht umständlich definiert ist, oder sogar erst definiert werden muss.

Für das Clustering selbst (also die Gruppeneinteilung von Daten) gibt es verschiedene Algorithmen, die verschiedene Parameter für das Gruppieren nutzen. Lassen Sie uns also zunächst einmal diese Parameter kurz durchsehen:

Die Anzahl der gewünschten/vermuteten Cluster: Manche Algorithmen, wie z.B. K-Means (siehe weiter unten) verlangen die Festlegung auf eine bestimmte Anzahl von Clustern von vornherein. Das bedeutet, man legt z.B. 3 Cluster fest, clustert dann die Daten so und sieht (bzw. kann berechnen), wie gut diese Wahl gepasst hat.
Ein bestimmter Abstand, den die Elemente maximal haben dürfen, um zum gleichen Cluster zu gehören, oder etwas Derartiges. Das kann ein einzelner Abstand oder ein gemittelter sein, je nachdem. So etwas setzt auch voraus, dass man zumindest irgendeine Ahnung von der ungefähren Dimension so eines Clusters hat.
Die Art der Daten und zwar entweder absolute Koordinaten oder Distanzen: Manche Algorithmen brauchen gar keine absoluten Distanzen, um ein Clustering berechnen zu können, sondern nur die Distanzen zwischen allen Elementen der Daten. Das Agglomerative Clustering, das wir uns gleich ansehen werden, ist so ein Algorithmus. Diese Variante (nur Distanzen) kann ziemlich praktisch sein, vor allem dann, wenn man die Abstandsmessung, die man zur Verfügung hat, nicht so einfach in koordinaten umsetzen kann. Denken Sie z.B. an eine Sequenzähnlichkeit von Buchstabenketten oder DNA.
Die Art, wie die Distanzen berechnet werden: Z.B. kann man immer die kleinste Distanz eines Elements zu einem bereits bestehenden Cluster nehmen, oder die gemittelten Distanzen des Elements zu allen Elementen eines bestehenden Clusters, oder dergleichen mehr.

Insgesamt läuft es darauf hinaus, dass man, je nach Algorithmus, die eine oder andere Vorgabe machen muss, damit der Algorithmus arbeiten kann. Andere Parameter kommen jeweils dann als Resultat heraus oder kommen nicht vor.

Wir sehen uns jetzt drei verschiedene Algorithmen nacheinander an, die etwas verschieden funktionieren. Mit jedem davon könnten wir viel mehr Zeit verbringen, die wir allerdings nicht haben. Daher erkläre ich jeweils nur kurz das Grundprinzip, zeige Ihnen den grundlegenden Aufruf aus der Package Scikit-Learn, und wir vergleichen den Output für jeweils einen zentralen Parameter.

Aber keine Sorge: In der Übungsaufgabe sind Sie dann wieder zum Experimentieren mit dem Clustering dieser Daten aufgerufen.

9.2 Der Algorithmus Agglomerative Clustering, kurz und einfach erklärt, mit Beispiel¶

Agglomeratives Clustering wird auch als “hierarchisches” Clustering bezeichnet. Warum, das ergibt sich aus der Funktionsweise. Die Schritte bei dieser Art des Clusterings ist wie folgt:

Die Distanzen zwischen allen Datenpunkten werden berechnet (oder sie sind anstelle von absoluten Koordinaten bereits gegeben, siehe oben)
Die beiden Datenpunkte mit der kürzesten Distanz werden zu einem Cluster kombiniert.
Dieser Cluster wird entweder durch alle seine Mitglieder repräsentiert und deren Koordinaten bleiben für Vergleiche verfügbar, oder er bekommt eine zentrale Koordinate zugewiesen
Für den neuen Cluster werden alle Distanzen zu den anderen Punkte im Datensatz berechnet
Die beiden Datenpunkte (inklusive des neuen Clusters) mit der kürzesten Distanz werden wieder zu einem neuen Cluster kombiniert.
Das kann so vor sich gehen, dass entweder der erste Cluster wächst oder ein separater neuer Cluster aus zwei einzelnen Datenpunkten entsteht und der erste Cluster unverändert bleibt.
Dieser Vorgang wiederholt sich so oft, bis alle Punkte Clustern zugeordnet sind.
Das führt letztendlich dazu, dass am Ende alle Daten in einem riesigen Cluster landen, dass allerdings gleichzeitig die Hierarchie innerhalb des Clusters über einen Baumgraphen klar ist
Wenn man tatsächlich mehrere Cluster erhalten möchte, dann muss man mit dem Kombinieren aufhören, bevor alles in einem Cluster landet. Das geht entweder über eine Maximale Distanz, bei der aufgehört wird, oder über eine bestimmte Anzahl von Clustern, die man haben möchte, und bei der dann aufgehört wird.

Insgesamt ist diese Methode sehr mächtig. Wir sehen uns jetzt einmal konkret an, was Agglomeratives Clustering aus unseren Beispieldaten macht. Der Grundaufruf der Klassen aus Scikit-Learn ist immer der gleiche: Wir generieren eine Instanz der Klasse soundso und davon holen wir uns dann die sogenannten “Labels”, d.h. die Zahlen, die für jedes Element im Datensatz die Clusterzugehörigkeit anzeigen. So sieht das aus:

In [53]:

# Erzeuge eine Instanz der Clustering-Klasse, mit 4 Clustern voreingestellt
# und fitte damit die Daten in unserem Daten-Array
first_clustering = AgglomerativeClustering(n_clusters=4, compute_full_tree=False).fit(data_array)

In [54]:

# So bekommt man die Indizes für die Cluster-Zugehörigkeit
# die kann man perfekt zum Einfärben der Punkte in einem Scatterplot nutzen
first_clustering.labels_

Out[54]:

array([2, 0, 2, ..., 2, 0, 1])

In [55]:

# Grafische Darstellung
fig = plt.figure(figsize=(15,10))

# setze einen geeigneten Wert für das Bild-Seitenverhältnis
ax = plt.gca()
ax.set_aspect(.75)


# Scatterplot mit den Daten, so wie oben, nur mit den Farben nach Clusterlabels
the_plot = plt.scatter(*np.transpose(data_array), c=first_clustering.labels_, cmap='tab20b')

# Zeichne zusätzlich noch einen Balken mit den Werten zu den Farben
plt.colorbar(the_plot, orientation="vertical", shrink=0.3)

# Achsenbeschriftungen
plt.xlabel("Longitude")
plt.ylabel("Latitude")

plt.show()

Unsupervised Machine Learning: Clustering von Daten 20

So stellt sich der Algorithmus also die Daten in 4 Clustern vor. Das kann man jetzt gut finden oder auch nicht, aber damit geben wir uns natürlich nicht zufrieden. Daher lassen wir einen Loop über verschiedene Anzahlen von Clustern laufen und sehen uns die Ergebnisse nebeneinander an. Dabei zeigt ein Colorbar an der Seite jeweils an, wie die Farben zu den Nummern der Cluster gehören.

In [51]:

# setzen wir die maximale Cluster-Anzahl auf 15
max_n = 15

# Starte die Grafik
fig = plt.figure(figsize=(15,70))

# Definiere die Liste für die Cluster-Anzahlen
cluster_range = range(2, max_n+1)

# Loop über die Anzahl der Cluster
for an_n in cluster_range:

    # Erzeugen des Clusterings. Die Clusteranzahl sollte sinnvollerweise mindestens
    # bei 2 beginnen
    first_clustering = AgglomerativeClustering(n_clusters=an_n, compute_full_tree=False).fit(data_array)
    
    # Erzeuge einen Subplot, 10x1 Plots insgesamt, dieser an der Stelle N+1
    ax = plt.subplot(len(cluster_range),1,an_n-1)
    
    # setze einen geeigneten Wert für das Bild-Seitenverhältnis
    ax.set_aspect(.75)
    
    # Und der Scatterplot mit den eingefärbten Punkten für dieses Clustering
    the_plot = ax.scatter(*np.transpose(data_array), c=first_clustering.labels_, cmap='tab20b')

    # Zeichne zusätzlich noch einen Balken mit den Werten zu den Farben
    plt.colorbar(the_plot, orientation="vertical", shrink=0.7)

    # Setze Achsenbeschriftungen und eine Plotüberschrift
    ax.set_xlabel("Longitude")
    ax.set_ylabel("Latitude")
    ax.set_title("Number of Clusters:"+str(an_n))

# Und den Plot anzeigen
plt.show()

9.3 Der Algorithmus DBSCAN, kurz und einfach erklärt, mit Beispiel¶

Als nächste Möglichkeit sehen wir uns einen Algorithmus an, der als DBSCAN bekannt ist. Diese Abkürzung steht für Density-Based Spatial Clustering of Applications with Noise, und das funktioniert wie folgt:

Der Algorithmus durchsucht die Datenpunkte der Reihe nach, und klärt für jeden Datenpunkt, ob er ein core-sample ist
Ein core-sample ist dadurch gekennzeichnet, dass es von einer bestimmten Anzahl anderer Samples höchstens einen bestimmten Abstand hat.
Durch dieses Konzept der mindestens soundsoviele Punkte mit höchstens diesem Abstand voneinander wird eine Dichte beschrieben (daher density-based)
Ein Cluster besteht dann in diesem Fall aus einer zusammenhängenden Menge von core-samples und allen Punkten, die von einem dieser core-samples höchstens den vorbestimmten Abstand haben (die selber aber keine core-samples sind, weil sie am Rand eines Clusters liegen, bzw. dort, wo er “weniger dicht” wird).
Alle Punkte, die nicht innerhalb des vorgegebenen Abstands zu einem core-sample liegen, werden als Ausreißer bzw. Noise (Rauschen) gewertet und bekommen einen extra Label zugewiesen
Kritische Parameter hier sind also:
- Der Abstand, der die Dichte bestimmt, und
- Die minimale Anzahl von Punkten, die es braucht, um core-samples zu finden

Schauen wir uns zunächst einmal von einem solchen Clustering den Output an:

In [13]:

second_clustering = DBSCAN(eps=15).fit(data_array)

# Damit wir nicht Listen dursehen müssen, plotten wir ein Histogramm
fig = plt.figure()

# Hier ist es, die möglichen Werte beginnen bei "-1", das steht für "outlier" oder "noise"
# und die anderen sind Cluster-Indizes
plt.hist(second_clustering.labels_, bins=[-1,0,1,2,3,4,5,6,7,8])

# setze y-Skalierung auf logarithmisch, zur besseren Sichtbarkeit
plt.yscale("log")

# Achsenbeschriftungen
plt.xlabel("Cluster-Index")
plt.ylabel("Count/Cluster-Size")

plt.show()

Jetzt können wir natürlich auch hier einen Loop laufen lassen, der uns mehrere Darstellungen unseres Datensatzes mit verschiedenen Parametern zeigt. Am wichtigsten ist hier der voreingestellte Abstand, weshalb wir diesen über Werte in einer Liste variieren werden.

In den Figuren, die im Folgenden erzeugt werden, sehen Sie an der Seite wieder das Colorbar. Dort können Sie auch anhand der Skala sehen, wie viele Cluster jeweils erzeugt wurden.

In [56]:

# Erzeuge die Figur
fig = plt.figure(figsize=(15,45))

# Loop über mehrere Werte des Abstands. Da wir auch den Index dazu brauchen,
# ist hier ein enumerate eingesetzt
for counter, an_n in enumerate([1, 2, 5, 10, 15, 20, 30, 50]):

    # Erzeuge das Clustering mit DBSCAN und dem entsprechenden Abstand
    second_clustering = DBSCAN(eps=an_n).fit(data_array)
    
    # Erzeuge einen Subplot, hier haben wir 8 
    # Werte im 8x1 Anordnung, numeriert durch den Zähler
    ax = plt.subplot(8,1,counter+1)

    # setze einen geeigneten Wert für das Bild-Seitenverhältnis
    ax.set_aspect(.75)

    # Und der Scatterplot mit den eingefärbten Punkten für dieses Clustering
    the_plot = ax.scatter(*np.transpose(data_array), c=second_clustering.labels_, cmap='tab20b')

    # Zeichne zusätzlich noch einen Balken mit den Werten zu den Farben
    plt.colorbar(the_plot, orientation="vertical", shrink=0.7)

    # setze Achsenbeschriftungen und Titel für die Subplots
    ax.set_xlabel("Longitude")
    ax.set_ylabel("Latitude")
    ax.set_title("maximum distance for neighborhood:"+str(an_n))

# Plots anzeigen
plt.show()

Hier sieht man deutlich den Effekt der verschieden eingestellten Abstände. Bei kleinen Werten ergeben sich teils seltsame Muster. Erst bei mittelgroßen Werten erscheint das Clustering auch auf den ersten Blick sinnvoll. Bei zu großen Werten landen wieder alle Punkte in einem einzigen Cluster.

Was man ebenfalls anhand des Colorbars schön sehen kann, sind die jeweils als “Ausreißer” bzw. “Noise” eingestuften, ganz dunkelblauen Punkte.

9.4 Der Algorithmus K-Means, kurz und einfach erklärt, mit Beispiel¶

Als letzten Cluster-Algorithmus sehen wir uns noch einen sehr gebräuchlichen an, nämlich k-means. Dieser Algorithmus setzt ein Prinzip um, das uns vielleicht im Vergleich mit den beiden bisher erklärten noch etwas intuitiver erscheint, was nämlich die Bildung und Definition der Cluster betrifft. Hier sind die Eckpunkte von k-means:

Die Anzahl $N$ der Cluster muss bei diesem Algorithmus vorgegeben werden und ändert sich auch während der Laufzeit des Algorithmus nicht.
Der Datensatz wird in $N$ Cluster eingeteilt.
k-means geht grundsätzlich von Daten auf der Basis von Koordinaten aus. Vorberechnete Differenzen nimmt er nur mit einigen Modifikationen an.
Für jeden Cluster wird ein sogenanntes “Centroid” berechnet, also das Clusterzentrum. Zu beachten ist, dass das Clusterzentrum im Allgemeinen nicht einem der Datenpunkte im Datensatz entsprechen wird (also quasi ein extra-Punkt ist, der sich im Laufe der Zeit ändert).
Diese Clusterzentren werden nun so optimiert, dass jeder Datenpunkt zu jenem Cluster gehört, dessen Centroid er am nächsten liegt.
Das führt zu einer Optimierung der Varianz der Abstände der Datenpunkten zum Centroid in jedem Cluster
Bei der Optimierung werden im wesentlichen zwei Schritte ausgeführt:
- Zuordnung jedes Datenpunkts zum nächsten Centroid
- Neuberechnung der Centroiden auf der Basis dieser Zuordnung
Die wiederholte Ausführung dieser beiden Schritte wird bei Konvergenz der Centroiden-Positionen abgebrochen

Sehen wir uns das jetzt einmal in der Praxis an. Der Parameter, den wir hier variieren werden, ist wieder die Anzahl der Cluster.

In [58]:

# Setzen wir die Maximale Zahl der verwendeten Cluster wieder auf 15
max_n = 15

# Erzeuge die Figur
fig = plt.figure(figsize=(15,70))

# Definiere die Liste für die Cluster-Anzahlen
cluster_range = range(2, max_n+1)

# Loop über die Anzahl der Cluster
for an_n in cluster_range:

    # Erzeugen des Clusterings. Die Clusteranzahl sollte sinnvollerweise mindestens
    # bei 2 beginnen
    third_clustering = KMeans(n_clusters=an_n).fit(data_array)
    
    # Erzeuge die Subplots in einem 10x1 Raster
    ax = plt.subplot(len(cluster_range),1,an_n-1)

    # setze einen geeigneten Wert für das Bild-Seitenverhältnis
    ax.set_aspect(.75)

    # Und der Scatterplot mit den eingefärbten Punkten für dieses Clustering
    the_plot = ax.scatter(*np.transpose(data_array), c=third_clustering.labels_, cmap='tab20b')

    # Zeichne zusätzlich noch einen Balken mit den Werten zu den Farben
    plt.colorbar(the_plot, orientation="vertical", shrink=0.7)

    # Setze Achsenbeschriftungen und Titel für die Subplots
    ax.set_xlabel("Longitude")
    ax.set_ylabel("Latitude")
    ax.set_title("Number of Clusters:"+str(an_n))

# Plots anzeigen
plt.show()

9.5 Übungsaufgabe: Experimentieren mit Clustering-Algorithmen¶

Die heutige Übungsaufgabe lautet: Experimentieren mit Cluster-Algorithmen, und zwar sowohl mit denen, die wir bereits verwendet haben, als auch mit weiteren, wenn Sie möchten. Spielen Sie mit den Parametern und stellen Sie diese so ein, dass Sie die Resultate gut interpretierbar finden würden.

Als weiterer Schritt (optional) bietet sich an, noch weitere Clustering-Algorithmen zu testen. Gehen Sie dazu auf die Überblicksseite für Clustering bei Scikit-Learn und suchen Sie sich etwas aus, von dem Sie glauben, dass es besonders gut zu unserem Datenbeispiel passt.

In [ ]:

Monte-Carlo-Methoden, Teil 2 – Monte-Carlo-Integration, Teil 2 und Random Walk

Leave a reply

Die Jupyter-Notebooks zur Lehrveranstaltung finden Sie im zugehörigen GitHub-Repository.

Monte-Carlo-Methoden, Teil 2 – Monte-Carlo-Integration, Teil 2 und Random Walk

8. Monte-Carlo-Methoden, Teil 2 – Monte-Carlo-Integration, Teil 2 und Random Walk¶

Im vorangegangenen Notebook haben wir uns mit Monte-Carlo-Methoden im Allgemeinen beschäftigt. Am Ende der Einheit haben wir außerdem das Konzept der Monte-Carlo-Integration gestreift, und zwar mit der Berechnung einer Näherung der Zahl $\pi$ über zufällig verteilte Punkte auf dem Einheitsquadrat. Das ist jedoch nicht die typische Art und Weise, Monte-Carlo-Integration zu betreiben.

Obwohl man mit einer Integration die Fläche unter der Kurve einer Funktion berechnet, ist das komplett analoge Beispiel mit der Berechnung von $\pi$ unter der Kurve des Viertelkreises, der im Einheitsquadrat eingeschrieben ist, tatsächlich mehr ein anschauliches Beispiel für eine MC-Simulation. Die MC-Integration verwendet allerdings meist ein anderes Prinzip.

8.1 Das Integral als Erwartungswert über eine Zufallsvariable¶

Konkret haben wir in der vergangenen Einheit den Wert des folgenden Integrals simuliert: $$4\int_0^1 dx \sqrt{1-x^2}$$ Das Resultat war eine Näherung der Zahl $\pi$, eine Fehlerabschätzung inklusive (weil wir mehrere Samples verwendet haben. Muss man das Integral allerdings tatsächlich so umständlich berechnen (also viele Punkte auf die ganze Fläche werfen, dann bestimmen welche unter dem Funktionswert liegen und welche darüber, alles abzählen und das Verhältnis bilden) oder geht das einfacher?

Es geht tatsächlich einfacher. Der Trick ist, das Integral, das wir gerade aufgeschrieben hatten, als Erwartungswert einer Funktion zu interpretieren. Um das noch etwas besser zu sehen, schreiben wir das Integral nochmals auf, und zwar zunächst einmal so: $$\int_{x_{min}}^{x_{max}} dx h(x)$$ Wir haben hier noch nicht viel gemacht, außer die Integrationsgrenzen mit zwei Variablen zu benennen, die Funktion allgemein als $h$ zu bezeichnen und den (irrelevanten) Vorfaktor wegzulassen. Der nächste Schritt ist allerdings der wesentliche. Wir schreiben das gleiche Integral jetzt als: $$\int_{x_{min}}^{x_{max}} dx f(x) g(x)$$ Auch das ist keine Hexerei, denn wir haben einfach nur die Funktion $h$ als ein Produkt von zwei anderen Funktionen $f$ und $g$ geschrieben. Warum ist das jetzt so viel besser als vorher?

Die Antwort auf diese Frage ist, dass uns nun die Interpretation als Erwartungswert leichter fällt. Sagen wir, $f$ sei eine Funktion, von der wir den Erwartungswert berechnen. Und $g$ ist eine Wahrscheinlichkeitsverteilung, und zwar der Zufallsvariablen $x$, deren Werte zwischen ${x_{min}}$ und ${x_{max}}$ liegen. Dann definiert dieses Integral tatsächlich den Erwartungswert der Funktion $f$ über die $g$-verteilte Zufallsvariable $x$.

Alles schön und gut, aber wie veranstalten wir damit nun eine MC-Integration?

8.2. Näherung des Erwartungswerts durch Sampling¶

Wir nähern das Integral, also den Erwartungswert durch Sampling der Zufallsvariablen $x$. Konkret müssen wir dazu folgendes tun:

Den eigentlichen Integranden in ein Produkt von zwei Funktionen $f$ und $g$ zerlegen
Eine der beiden (in unserem Beispiel $g$) als Wahrscheinlichkeitsverteilung interpretieren (und verwenden können)
Wir sampeln $N$ Werte $x_i$ für $x$, und zwar aus der Verteilung $g$
Wir bestimmen die Summe $$\frac{1}{N} \sum_{i=1}^N f(x_i)$$
Wir betreiben wieder Statistik mit mehreren Samples und bestimmen Mittelwerte und Standardabweichung

Soweit, so gut. Sehen wir uns jetzt nochmals das Integral an, das zum Wert von $\pi$ führt: $$4\int_0^1 dx \sqrt{1-x^2}$$ Hier kann man z.B. einfach $f(x)=\sqrt{1-x^2}$ und $g(x)=1$ (also gleichverteilte Zufallszahlen) nehmen. Somit ergibt sich für die Näherung des Integrals die Summe $$\frac{1}{N} \sum_{i=1}^N \sqrt{1-x_i^2}$$ mit gleichverteilten $x_i$.

Probieren wir das mal aus.

8.3 Näherungswert für $\pi$, revisited¶

In [1]:

%matplotlib inline

# zunächst die Imports für heute
import numpy as np

# die Halbnormalverteilung importieren wir aus SciPy
from scipy.stats import halfnorm

# Matplotlib wie gewohnt
import matplotlib.pyplot as plt

# Auch SymPy bekommt hier ein kurzes Gastspiel
import sympy as sp

# Und tqdm für den Fortschrittsbalken
from tqdm import tqdm

Zunächst lohnt es sich, der Übersichtlichkeit halber ein paar Schritte des Prozesses als Funktionen zu definieren. Die Schritte, die wir hier machen, sind:

Die Funktion, um die es geht
Die Summe (eigentlich der Mittelwert) als Näherung des Erwartungswertes
Das Wiederholen des Aufrufs für mehrere Samples und die damit verbundene Statistik

Was wir hier nicht als Argument einer Funktion einbauen, ist die spezifische Wahrscheinlichkeitsverteilung, die wir verwenden wollen. Die Gleichverteilung wird stattdessen erstmal fix eingebaut.

In [2]:

# definiere Funktion für den Aufruf (NumPy-geeignet)
def pi_function(x):
    
    # die Wurzelfunktion direkt zurückgeben
    return 4 * np.sqrt(1 - x**2)


# definiere Funktion zur Berechnung der Näherungssumme
def approximate_by_average(the_function, x_values):
    
    # gib die Summe der Funktionswerte an den gewünschten Stellen
    # dividiert durch die Zahl der Punkte zurück
    # das Average läuft dabei nur über die letzte Dimension des Arrays
    return np.mean(the_function(x_values), axis=-1)


# definiere Funktion zum Berechnen und Auswerten mehrerer Samples
def evaluate_n_samples(the_call, the_function, n_samples=20, n_points=100):

    # Rufe Samples auf
    the_output = the_call(the_function, np.random.random(size=(n_samples, n_points)))
        
    # Berechne Statistik
    the_means = np.mean(the_output, axis=-1)
    the_sigmas = np.std(the_output, axis=-1)
        
    # gib Mittelwerte und Standardabweichungen zurück
    return the_means, the_sigmas
    

Als nächstes können wir nun diese Funktionen zusammensetzen und damit eine Simulation bzw. Integration starten. Die Ergebnisse sehen wir uns in Abhängigkeit von der Anzahl der verwendeten Punkte pro Summe bzw. Erwartungswert an. Nachdem der Loop durchgelaufen ist, werden auch noch die Ergebnisse entsprechend ausgegeben.

In [3]:

# initialisiere Liste für Mittelwerte und Sigmas
mean_list = []
sigma_list = []

# definiere Liste für verschiedene Werte für N
n_list = [10, 100, 1000, 10000, 100000, 10000000]

# loop über diese Werte von N
for an_n in tqdm(n_list):

    # rufe die Summe auf, mit entsprechendem Wert für N
    means_sum, stds_sum = evaluate_n_samples(approximate_by_average, pi_function, n_samples=20, n_points=an_n)
    
    # hänge Werte von mean und sigma an die Sammelliste an
    mean_list.append(means_sum)
    sigma_list.append(stds_sum)
    
    # Ausgabe der Resultate während des Loops
    print("Näherung für Pi mit", an_n, "Punkten:", means_sum, "+-", stds_sum)

    print("Unterschied zu Pi:", means_sum - np.pi, "\n")
    
    
    
# gib die Listen aus
print("Mittelwerte:", mean_list)
print("Standardabweichungen:", sigma_list)

  0%|          | 0/6 [00:00<?, ?it/s]

Näherung für Pi mit 10 Punkten: 3.182888494049963 +- 0.2919599358096478
Unterschied zu Pi: 0.041295840460169764 

Näherung für Pi mit 100 Punkten: 3.166754030813454 +- 0.09727596780359392
Unterschied zu Pi: 0.025161377223660963 

Näherung für Pi mit 1000 Punkten: 3.131525116567528 +- 0.02789525859649153
Unterschied zu Pi: -0.01006753702226515 

Näherung für Pi mit 10000 Punkten: 3.141978395587277 +- 0.011889041212797933
Unterschied zu Pi: 0.0003857419974839793 

Näherung für Pi mit 100000 Punkten: 3.142505674710769 +- 0.0037917561127985026
Unterschied zu Pi: 0.0009130211209757988

100%|██████████| 6/6 [00:05<00:00,  1.07it/s]

Näherung für Pi mit 10000000 Punkten: 3.14155191374144 +- 0.00026076443789357375
Unterschied zu Pi: -4.073984835306632e-05 

Mittelwerte: [3.182888494049963, 3.166754030813454, 3.131525116567528, 3.141978395587277, 3.142505674710769, 3.14155191374144]
Standardabweichungen: [0.2919599358096478, 0.09727596780359392, 0.02789525859649153, 0.011889041212797933, 0.0037917561127985026, 0.00026076443789357375]

8.4 Verwendung der Wahrscheinlichkeitsverteilung¶

Bisher haben wir noch nicht wirklich Gebrauch von der Möglichkeit gemacht, die Wahrscheinlichkeitsverteilung eigentlich ziemlich beliebig aus dem Integral zu separieren. Aber auch dafür wollen wir uns jetzt ein Beispiel ansehen. Dabei geht es um das Integral $$\int_0^\infty dx\; x^3 e^{-x^2}$$

Um es zu mit MC-Integration zu berechnen, nehmen wir es wie folgt auseinander: $f(x)=x^3$ und $g(x)=e^{-x^2}$. Dabei stellen wir fest, dass $g$ noch nicht ganz einer Wahrscheinlichkeitsverteilung entspricht. Genauer gesagt, hat eine Normalverteilung mit Mittelwert $0$ die folgende Form $$\frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{x^2}{2\sigma^2}}$$ Ein anderes Problem ist, dass wir nur eine Seite der Normalverteilung brauchen, weil das Integral von $0$ bis $\infty$ reicht. Wir nehmen also stattdessen die sogenannte Halbnormalverteilung der Form $$\frac{\sqrt{2}}{\sigma\sqrt{\pi}} e^{-\frac{x^2}{2\sigma^2}}$$

Damit das zusammenpasst, müssen wir also $\sigma=1/\sqrt{2}$ setzen, und es ergibt sich die Verteilung $$\frac{2}{\sqrt{\pi}} e^{-x^2}$$ Damit haben wir also als korrekte Zerlegung $f(x)=\frac{\sqrt{\pi}}{2} x^3$ und $g(x)=\frac{2}{\sqrt{\pi}} e^{-x^2}$ gefunden. Und damit ergibt sich für die Näherung des Integrals die Summe $$\frac{1}{N} \sum_{i=1}^N \sqrt{\pi}x_i^3 / 2$$ mit halbnormalverteilten $x_i$.

Zur Kontrolle sehen wir uns einmal das Integral an, wie SymPy es berechnet:

In [4]:

# Erzeuge SymPy-Symbol (Variable) x
x = sp.Symbol("x")

# Definiere die Funktion
function_2 =  x**3 * sp.exp(-x**2)


# Berechne den numerischen Wert des Integrals der Funktion von 0 bis undendlich
sp.N(sp.integrate(function_2, (x, 0, sp.oo)))

Out[4]:

$\displaystyle 0.5$

Als nächstes machen wir nun die numerische Abschätzung via MC-Integration. Dafür habe ich von oben nochmal die entsprechenden Zellen kopiert und die Funktion angepasst, sowie die Wahrscheinlichkeitsverteilung ausgetauscht.

In [5]:

# definiere Funktion für den Aufruf (NumPy-geeignet)
def x3_function(x):
    
    # die Funktion direkt zurückgeben
    return np.sqrt(np.pi) * x**3 / 2


# definiere Funktion zum Berechnen und Auswerten mehrerer Samples
def evaluate_n_samples_halfnormal(the_call, the_function, n_samples=20, n_points=100):

    # Rufe Samples auf, der Zufallszahlenbefehl ist hier (SciPy) etwas anders
    the_output = the_call(the_function, halfnorm.rvs(size=(n_samples, n_points), scale=1/np.sqrt(2)))
        
    # Berechne Statistik
    the_means = np.mean(the_output, axis=-1)
    the_sigmas = np.std(the_output, axis=-1)
        
    # gib Mittelwerte und Standardabweichungen zurück
    return the_means, the_sigmas
    

In [6]:

# initialisiere Liste für Mittelwerte und Sigmas
mean_list = []
sigma_list = []

# definiere Liste für verschiedene Werte für N
n_list = [10, 100, 1000, 10000, 100000, 1000000, 10000000]

# loop über diese Werte von N
for an_n in tqdm(n_list):

    # rufe die Summe auf, mit entsprechendem Wert für N
    means_sum, stds_sum = evaluate_n_samples_halfnormal(approximate_by_average, x3_function, n_samples=20, n_points=an_n)
    
    # hänge Werte von mean und sigma an die Sammelliste an
    mean_list.append(means_sum)
    sigma_list.append(stds_sum)
    
    # Ausgabe der Resultate während des Loops
    print("Näherung für 0.5 mit", an_n, "Punkten:", means_sum, "+-", stds_sum)

    print("Unterschied zu 0.5:", means_sum - 0.5, "\n")
    
    
    
# gib die Listen aus
print("Mittelwerte:", mean_list)
print("Standardabweichungen:", sigma_list)

  0%|          | 0/7 [00:00<?, ?it/s]

Näherung für 0.5 mit 10 Punkten: 0.4563206877909283 +- 0.21645612167170966
Unterschied zu 0.5: -0.043679312209071675 

Näherung für 0.5 mit 100 Punkten: 0.46435914787955357 +- 0.10384478854423947
Unterschied zu 0.5: -0.03564085212044643 

Näherung für 0.5 mit 1000 Punkten: 0.5159776416138581 +- 0.04297139507303872
Unterschied zu 0.5: 0.015977641613858062 

Näherung für 0.5 mit 10000 Punkten: 0.5033704725040146 +- 0.010712594688818371
Unterschied zu 0.5: 0.0033704725040145656

 71%|███████▏  | 5/7 [00:00<00:00, 41.63it/s]

Näherung für 0.5 mit 100000 Punkten: 0.49952385313255626 +- 0.004849344454136434
Unterschied zu 0.5: -0.0004761468674437386 

Näherung für 0.5 mit 1000000 Punkten: 0.5001181851240026 +- 0.001057633638660564
Unterschied zu 0.5: 0.00011818512400263437

100%|██████████| 7/7 [00:12<00:00,  1.72s/it]

Näherung für 0.5 mit 10000000 Punkten: 0.49991003607040296 +- 0.0004039890985762624
Unterschied zu 0.5: -8.99639295970367e-05 

Mittelwerte: [0.4563206877909283, 0.46435914787955357, 0.5159776416138581, 0.5033704725040146, 0.49952385313255626, 0.5001181851240026, 0.49991003607040296]
Standardabweichungen: [0.21645612167170966, 0.10384478854423947, 0.04297139507303872, 0.010712594688818371, 0.004849344454136434, 0.001057633638660564, 0.0004039890985762624]

In [7]:

# Hier noch eine grafische Darstellung
fig = plt.figure()

# Plotte Mittelwerte mit Fehlerbalken
plt.errorbar(n_list, mean_list, yerr=sigma_list, xerr=None, 
             fmt="o-", markersize=10, color="b", ecolor="red", capsize=10, capthick=2)

# Schalte x-Achse (N) auf logarithmische Skalierung
plt.xscale("log")

# Achsenbeschriftungen
plt.xlabel(r"$N$")
plt.ylabel("Wert des Integrals")

# Grafik anzeigen
plt.show()

Mit dieser Technik lassen sich im Prinzip beliebige Integrale numerisch nähern. Was wir hier nicht gemacht haben, was aber diesbezüglich wichtig ist: Die Methode funktioniert nicht nur genauso gut in mehr als einer Dimension, sie ist sogar besonders effizient, je höher die Anzahl der Dimensionen wird. Dazu noch ein Detail, das Sie sich gut merken können (auch, weil wir es in der vergangenen Einheit explizit gezeigt haben):

Der Fehler bei der Monte-Carlo-Integration skaliert wie der Kehrwert der Wurzel aus $N$, der Anzahl der verwendeten Punkte bzw. der Sample-Größe. Dieser Wert hängt nicht von der Dimension des Integrals ab, während das für andere numerische Integrationsmethoden sehr wohl der Fall ist (z.B. für Gauss-Quadratur-Verfahren muss man eine Anzahl Integrationspunkte in jeder Dimension festlegen). Wenn Sie sich also nur eine Eigenschaft bei Monte-Carlo-Methoden merken, dann merken Sie sich das:

Der Fehler skaliert wie $\frac{1}{\sqrt{N}}$.

8.5 Komplexeres Beispiel für Monte-Carlo-Simulation: Random Walk¶

Nachdem Sie nun mit der spezifischen Technik der MC-Integration vertraut sind, wenden wir uns wieder der allgemeinen Simulation zu. Insbesondere sehen wir uns ein Problem an, dem Sie vielleicht auch einmal im echten Leben begegnen werden: Dem Random Walk.

Damit ist folgendes gemeint: Wir stellen uns folgende Situation bzw. folgendes System vor:

Ein Mensch/Hund/Roboter, nennen wir ihn “agent”, kann Schritte ausführen
Die Schritte können in der Größe fixiert sein, oder durch eine Wahrscheinlichkeitsverteilung bestimmt werden
Die Richtung eines Schrittes kann ebenfalls eingeschränkt sein (z.B. entlang der Koordinatenachsen auf einem Gitter) oder in beliebiger Richtung ausgeführt werden können
Die Richtung wird für jeden Schritt zufällig über eine Wahrscheinlichkeitsverteilung gewählt
Jeder Schritt wird von der Position ausgeführt, an der der vorige Schritt geendet hat
Die Bewegung, die so entsteht, ist ein zusammenhängender Weg
Simuliert man viele solcher Wege, dann erhält man verschiedene Informationen, wie immer über die statistische Auswertung der Ergebnisse

Somit haben wir das Grundgerüst, das eigentlich sehr übersichtlich und ziemlich geradlinig ist. Deshalb wollen wir uns das gleich einmal konkret ansehen.

In [8]:

# definiere Funktion für einen Schritt in 2D
def step(size=1):
    
    # wir machen das wieder vectorizable, sodass wir mehrere 
    # Walks auf einmal laufen lassen können
    
    # hier zuerst die Richtung, beliebig aus 2 Pi ausgewählt
    directions = 2 * np.pi * np.random.random(size=size)
    
    # dann noch die Schrittgröße, die wir hier einmal auf 1 fixieren
    strides = np.ones(size)
    
    # daraus berechnen wir die Unterschiede in x und y Richtung
    delta_x = strides * np.cos(directions)
    delta_y = strides * np.sin(directions)
    
    # das Resultat hat also Dimension 2 x size
    return delta_x, delta_y

Nachdem die Funktion für einen Schritt in mehreren Walks definiert ist, werden wir nun eine Runde von Walks laufen lassen. Dafür brauchen wir jeweils eine Anzahl von Schritten und Walks, und dann einen Loop, bei dem die Schritte ausgeführt und die Positionen mitgeschrieben werden.

In [9]:

# definiere Anzahl der Schritte in einem Walk
n_steps = 1000   # erhöhe auch auf 100, 1000

# definiere Anzahl der Walks die gleichzeitig laufen
n_simultaneous_walks = 1000  # erhöhe auch auf 100, 1000

# initialisiere Positionen für alle Walks am Anfang:
# 2 Koordinaten pro Walk, 1. Zeile im Positionsarray
positions = np.zeros((1, n_simultaneous_walks, 2))

# Loop über Schritte
for ind_steps in tqdm(range(n_steps)):
    
    # addiere die transponierten Deltas zur letzten Position in der Liste
    # und berechne dadurch die neuen Positionen in allen Walks
    # das Transponieren bringt die xy Werte für alle Walks an die richtige Stelle
    new_positions = positions[-1] + np.transpose(step(size=n_simultaneous_walks))
    
    # und hänge die neue Position an die Positionsliste an
    # dafür brauchen die neuen Positionen eine Dimension mehr, sonst passt das Array
    # nicht zu den positions
    positions = np.append(positions, np.reshape(new_positions, (1, -1, 2)), axis=0)
                     

        
# jetzt machen wir gleich noch eine grafische Darstellung
fig = plt.figure(figsize=(10,10))

# setze Ascpect-Ratio des Plots auf 1, damit die Form der Walks stimmt
ax = plt.gca()
ax.set_aspect(1)

# zum leichteren Plotten bringen wir die Dimensionen im fertigen Array
# der Positionen in eine andere Reihenfolge:
# vorher: Schritte x Walks x xy
# nachher: Walks x xy x Schritte
positions = np.transpose(positions, (1, 2, 0))
          
# durch das Transponieren bzw. Permutieren kann man nun einfach einen 
# Loop über den 0. Index laufen lassen
for ind_walks in tqdm(range(n_simultaneous_walks)):
    
    # die xy Koordinaten kann man dann einfach übergeben
    # und der letzte Index ist dann die Abfolge der Schritte für die Linie
    plt.plot(*positions[ind_walks], linewidth=.1)

# hier zahlt es sich aus, die Figur auch abzuspeichern, um sie besser
# ansehen zu können. Zwei Formate sind interessant:
# erstens png als typisches Bildformat, möglich wäre auch jpg
# plt.savefig("random_walk.png", dpi=1200)
# zweitens pdf als Vektorformat (d.h. die Auflösung bei der
# Darstellung wird an die Bildgröße angepasst)
plt.savefig("random_walk.pdf")

# Und Grafik anzeigen
plt.show()                     
                     
                     

100%|██████████| 1000/1000 [00:00<00:00, 2002.51it/s]
100%|██████████| 1000/1000 [00:00<00:00, 3738.63it/s]

Nachdem wir jetzt die Daten erzeugt und auch bereits visualisiert haben, wollen wir sie noch etwas auswerten. Dafür können wir einfach das NumPy-Array mit den Positionen verwenden und bestimmte Dinge berechnen (und dann ebenfalls grafisch darstellen). Interessant sind z.B.

Mittlere Entfernung vom Ursprung in Abhängigkeit von der Anzahl der Schritte
Maximale Entfernung vom Ursprung in Abhängigkeit von der Anzahl der Schritte
Richtung am letzten Punkt im Walk

Sehen wir uns das alles einfach der Reihe nach an:

In [10]:

# zur Erinnerung: Die Dimensionen in positions sind: Walks x xy x Schritte

# berechne zunächst die Distanzen über den Satz von Pythagoras
distances = np.sqrt(np.sum(positions**2, axis=1))

# berechne nun die Durchschnittsdistanzen für alle Walks
average_distances = np.mean(distances, axis=1)

# Ausgabe der Statistik
print("Mittlere Durchschnittsdistanz:", np.round(np.mean(average_distances), 2), "+-", np.round(np.std(average_distances), 2))

# Erzeuge neue Grafik
fig = plt.figure(figsize=(10,8))

# Diesmal nehmen wir verschiedene Möglichkeiten zur Visualisierung

# Erzeuge einen Subplot in einem 2x2 Raster an der Stelle 1
ax1 = plt.subplot(2,2,1)

# Erste Möglichkeit: Plotte Distanz als Funktion des Walks
ax1.plot(average_distances)

ax1.set_xlabel("Walks")
ax1.set_ylabel("Durchschnittsdistanz vom Ursprung")


# Erzeuge einen Subplot in einem 2x2 Raster an der Stelle 2
ax2 = plt.subplot(2,2,2)

# Zweite Möglichkeit: Plotte Distanz als Funktion des Walks,
# aber geordnet nach aufsteigenden Werten
ax2.plot(np.sort(average_distances))

ax2.set_xlabel("Walks, geordnet nach Werten")
ax2.set_ylabel("Durchschnittsdistanz vom Ursprung")


# Erzeuge einen Subplot in einem 2x2 Raster an der Stelle 3
ax3 = plt.subplot(2,2,3)

# Dritte Möglichkeit: Plotte Distanzen in einem Histogramm
ax3.hist(average_distances)

ax3.set_xlabel("Durchschnittsdistanz vom Ursprung")
ax3.set_ylabel("Walks")


plt.show()

Mittlere Durchschnittsdistanz: 18.7 +- 7.62

1FREREQkBJmYiIiEgIKCkTERERCQElZSIiIiIhoKRMREREJASUlImIiIiEwP8DCRXY0d9zvaYAAAAASUVORK5CYII=

In [11]:

# berechne nun die maximalen Distanzen für alle Walks
max_distances = np.max(distances, axis=1)

# Ausgabe der Statistik
print("Mittlere Maximaldistanz:", np.round(np.mean(max_distances), 2), "+-", np.round(np.std(max_distances), 2))

# Erzeuge neue Grafik
fig = plt.figure(figsize=(10,8))

# Wir nehmen wieder verschiedene Möglichkeiten zur Visualisierung

# Erzeuge einen Subplot in einem 2x2 Raster an der Stelle 1
ax1 = plt.subplot(2,2,1)

# Erste Möglichkeit: Plotte Distanz als Funktion des Walks
ax1.plot(max_distances)

ax1.set_xlabel("Walks")
ax1.set_ylabel("Maximaldistanz vom Ursprung")


# Erzeuge einen Subplot in einem 2x2 Raster an der Stelle 2
ax2 = plt.subplot(2,2,2)

# Zweite Möglichkeit: Plotte Distanz als Funktion des Walks,
# aber geordnet nach aufsteigenden Werten
ax2.plot(np.sort(max_distances))

ax2.set_xlabel("Walks, geordnet nach Werten")
ax2.set_ylabel("Maximaldistanz vom Ursprung")


# Erzeuge einen Subplot in einem 2x2 Raster an der Stelle 3
ax3 = plt.subplot(2,2,3)

# Dritte Möglichkeit: Plotte Distanzen in einem Histogramm
ax3.hist(max_distances)

ax3.set_xlabel("Maximaldistanz vom Ursprung")
ax3.set_ylabel("Walks")


plt.show()

Mittlere Maximaldistanz: 36.82 +- 12.72

Monte-Carlo-Methoden, Teil 2 - Monte-Carlo-Integration, Teil 2 und Random Walk 25

In [12]:

# Jetzt kommt noch die Visualisierung der Richungen
# zur Erinnerung: Die Dimensionen in positions sind: Walks x xy x Schritte

# berechne zunächst die Richtungen über den Arcustangens
final_positions = positions[:, :, -1]
directions = np.arctan(final_positions[:, 1]/final_positions[:, 0])

# berechne nun die Durchschnittsrichtung für alle Walks
average_direction = np.mean(directions)

# Ausgabe der Statistik
print("Mittlere Richtung:", np.round(average_direction, 2), "+-", np.round(np.std(directions), 2))

# Erzeuge neue Grafik
fig = plt.figure(figsize=(10,8))

# Diesmal nehmen wir vier verschiedene Möglichkeiten zur Visualisierung

# Erzeuge einen Subplot in einem 2x2 Raster an der Stelle 1
ax1 = plt.subplot(2,2,1)

# Erste Möglichkeit: Plotte finale Positionen aller Walks
ax1.scatter(*np.transpose(final_positions), s=.3)

ax1.set_xlabel("x")
ax1.set_ylabel("y")


# Erzeuge einen Subplot in einem 2x2 Raster an der Stelle 2
ax2 = plt.subplot(2,2,2)

# Zweite Möglichkeit: Plotte Averages von finalen x und y mit Fehlerbalken
ax2.errorbar(*np.mean(final_positions, axis=0), 
             xerr=np.std(final_positions[:, 0]), 
             yerr=np.std(final_positions[:, 1]),
            elinewidth=1.5, capsize=15,
            fmt='o', markersize=15)

ax2.set_xlabel("Walks")
ax2.set_ylabel("Richtung am Ende des Walks")


# Erzeuge einen Subplot in einem 2x2 Raster an der Stelle 3
ax3 = plt.subplot(2,2,3)

# Dritte Möglichkeit: Plotte Richtungen als Funktion des Walks
ax3.plot(directions)

ax3.set_xlabel("Walks")
ax3.set_ylabel("Richtung am Ende des Walks")


# Erzeuge einen Subplot in einem 2x2 Raster an der Stelle 4
ax4 = plt.subplot(2,2,4)

# Vierte Möglichkeit: Plotte Richtungen als Funktion des Walks,
# geordnet nach aufsteigenden Werten
ax4.plot(np.sort(directions))

ax4.set_xlabel("Walks, geordnet nach Werten")
ax4.set_ylabel("Richtung am Ende des Walks")



plt.show()

Mittlere Richtung: -0.01 +- 0.87

8.6 Übungsaufgabe: Experimentieren mit dem Random Walk¶

Für die Untersuchungen von Random Walks gibt es viele Möglichkeiten. Experimentieren Sie nun mit diesem Problem. Kopieren Sie den Code von oben und testen Sie je nach Zeit und Möglichkeit (und unter anderem, je nachdem, was Sie sonst noch alles verändern möchten) folgende Änderungen/Szenarien:

Ändern Sie die Schrittweite auf eine andere Konstante. Was passiert?
Wählen Sie die Schrittweite zufällig aus einer Wahrscheinlichkeitsverteilung Ihrer Wahl. Was passiert?
Verpassen Sie dem Random Walk eine “Schlagseite” (“Biased Random Walk”), d.h. machen Sie z.B. die Schrittweite von der Richtung abhängig. Was passiert?
Schränken Sie die Richtung auf ein Gitter ein (also die Richtung auf z.B. die 4 Winkel 0, 90, 180, 270 Grad). Was passiert?
Erhöhen Sie die Anzahl der Schritte und beobachten Sie die Werte für mittlere und maximale Distanz vom Ursprung. Können Sie eine bestimmte Abhängigkeit dieser Größen von der Anzahl der Schritte feststellen?

Monte-Carlo-Methoden – Simulation und Integration

Leave a reply

Die Jupyter-Notebooks zur Lehrveranstaltung finden Sie im zugehörigen GitHub-Repository.

Monte-Carlo Methoden – Simulation und Integration

7 Monte-Carlo Methoden – Simulation und Integration¶

In diesem Notebook beschäftigen wir uns mit den sogenannten Monte-Carlo Methoden. Im wesentlichen handelt es sich dabei um einen Satz von Methoden, die verschiedene Situationen mit Hilfe von (Pseudo-)Zufallszahlen simulieren oder verschiedene Größen auf diese Art berechnen helfen.

Recht bekannt ist die Monte-Carlo Integration, mit der wir uns im zweiten Teil dieser Einheit beschäftigen werden. Zunächst sollen Sie allerdings eine allgemeinere Einführung in die Anwendung von Monte-Carlo Methoden bekommen, denn die Monte-Carlo Integration ist eher als Spezialfall anzusehen.

7.1 Allgemeine Strategie einer Monte-Carlo Simulation¶

Die allgemeine Strategie einer MC-Simulation ist eigentlich recht simpel und geradlinig: Man nehme eine interessante Situation/Fragestellung, deren Regeln man kennt, setze diese in einem Computerprogramm um, lasse dieses Programm einige (viele viele) Male laufen, und werte die Ergebnisse statistisch aus.

Was das Wort “statistisch” hier soll, dazu kommen wir gleich noch. Aber grundsätzlich würde es für eine super-brutale erste Näherung auch genügen, das Programm nur einmal laufen zu lassen. Dann hätte man ein Ergebnis, mit dem man de facto auch bereits einen Teil der Antwort auf die Fragestellung bekommt, aber eben nur einen Teil.

Und zwar deshalb, weil in einer MC-Simulation der Zufall (bzw. Pseudozufallszahlen) eine große Rolle spielt. Somit ist das eine Ergebnis, das man bekommen hat, eben auch nur ein möglicher Ausgang der Situation, mit der man sich befasst. Was sonst noch alles passieren kann, das kommt erst ans Licht, wenn man das Programm eben sehr oft laufen lässt. Zum besseren Verständnis einer ordentlichen Auswertung einer MC-Simulation kommen wir kurz zu ein paar Begriffen zurück, die uns bereits begegnet sind:

7.2 Samples, Sample-Means¶

Wir haben bereits in der vergangenen Einheit (bei der Stochastischen Optimierung) über Sampling gesprochen. Damals ging es in erster Linie darum, dass ein Sample ein Satz von Zufallszahlen ist, mit dem man irgendeine Berechnung anstellt. Im Kontext der MC-Simulation ist ein Sample jedoch noch etwas mehr, nämlich ein Teil der Simulation. Die gesamte Simulation besteht aus mehreren Samples, die kombiniert werden, um die statistische Auswertung klar zu machen. Wieso, dazu gleich mehr im folgenden Abschnitt.

Zunächst aber noch zum Mittelwert einer Größe in einem Sample. Wenn wir z.B. einen Würfel werfen (siehe auch weiter unten), dann beträgt der Mittelwert der Augen, gemessen über ein Sample, die Anzahl der im Sample geworfenen Augen durch die Anzahl der Würfe. Das ist dann das Sample-Mean. Analog kann man für ein Sample auch verschiedene andere Eigenschaften von Variablen bestimmen, wie z.B. die Standardabweichung, etc.

Das ist schon ein guter Anfang, doch es geht noch besser.

7.3 Der Zentrale Grenzwertsatz und Mean of Sample-Means¶

Der zentrale Grenzwertsatz (auf Englisch “Central-Limit Theorem”) soll uns hier nicht sehr grundlegend beschäftigen, sondern eher als Erklärung und Motivation dafür dienen, einen Satz von Samples für die Auswertung einer MC-Simulation zu verwenden.

Genauer gesagt nehmen wir die Mittelwerte einer Größe aus mehreren Samples und mitteln diese nochmals zu einem Sample-Mean. Wieso? Der Zentrale Grenzwertsatz besagt, dass für mehrere Zufallsvariablen, die der gleichen Verteilung folgen, die Verteilung der Sample-Means normalverteilt ist. Das bedeutet:

Nimmt man ein Sample und berechnet damit einen Mittelwert, dann hat man zwar einen Anhaltspunkt für den Mittelwert der tatsächlichen zugrundeliegenden Verteilung, aber nicht mehr.
Nimmt man die Sample-Means und berechnet deren Mean und Standardabweichung (das darf man, denn die Verteilung ist ja eine Normalverteilung), dann hat man sowohl eine bessere Näherung für den tatsächlichen Mittelwert, als auch gleichzeitig eine Abschätzung für den statistischen Fehler in der Bestimmung dieses Mittelwerts.
Wenn man nun die Anzahl der Elemente eines Samples erhöht (also die Samplegröße), dann bekommt man grundsätzlich genauere Werte für den Mittelwert.
Wenn man allerdings mehrere Samples verwendet, dann bekommt man eine bessere Einschätzung des Fehlers im Mittelwert.

Wir werden damit gleich experimentieren, damit Sie sehen, was gemeint ist.

7.4 Beispiel: Böse Eins¶

Als einfaches Beispiel wollen wir uns ein einfaches Würfelspiel ansehen, das mit nur einem normalen Würfel (D6) gespielt wird: Böse Eins. Die Regeln dafür, hier von SpielWiki übernommen, lauten:

Die Spieler würfeln der Reihe nach mit einem Würfel. Jeder Spieler darf fünfmal würfeln. Die Augen aus den einzelnen Würfen werden notiert. Wirft man jedoch eine Eins, werden die Augen der jeweiligen Runde ungültig. Sieger ist, wer als erster 100 Punkte hat.

Um dieses Spiel zu simulieren, lassen wir mehrere Samples von Durchläufen für das Spiel von einem Programm durchrechnen. Für die Analyse wählen wir Größen aus, die uns geeignet erscheinen, das zu erfahren, was wir wissen wollen oder was interessant scheint, z.B.:

Was ist die durchschnittliche Punktzahl pro Spieler pro Runde?
Nach wie vielen Runden ist ein Spiel durchschnittlich zu Ende?

Diese Größen zeichnen wir dann während der Simulation zu geeigneten Zeitpunkten auf, um am Ende dann die entsprechenden Statistiken anzufertigen. Die statistische Auswertung wird wieder zunächst über die Runs, dann innerhalb der Samples, und schließlich über die Samples gemacht, sodass wir fundierte Informationen bekommen.

Legen wir also los.

In [1]:

%matplotlib inline

# Die Imports für heute
import numpy as np

import matplotlib.pyplot as plt

from tqdm import tqdm

In [2]:

# Definiere Würfe für den D6-Würfel
def roll_d6(size=None):
    
    # wähle aus den 6 Würfelseiten aus
    return np.random.choice(np.arange(1,7,1), size=size, replace=True)

# ein paar Würfe
roll_d6(size=(5))

Out[2]:

array([3, 1, 6, 2, 4])

In [3]:

# Definiere eine Runde für Böse 1
def boese_1_round(n_players=3, verbose=False):
    
    # 5 Würfe für jeden Spieler
    rolls = roll_d6(size=(n_players, 5))
    if verbose: print("Augen:\n", rolls)
    
    # finde Einsen in den Würfen
    evil_ones = np.where(rolls == 1, np.ones((n_players, 5)), np.zeros((n_players, 5)))
    if verbose: print("Positionen der Einsen:\n", evil_ones)
    
    # summiere die Augen auf, egal ob Einsen dabei sind oder nicht
    sums_of_rolls = np.sum(rolls, axis=1)
    if verbose: print("Wurfsummen:\n", sums_of_rolls)
    
    # Berechne die Punkte für jeden Spieler. Jene Spieler mit 1en erhalten 0 Punkte für die Runde
    points = np.where(np.sum(evil_ones, axis=1) == 0, sums_of_rolls, np.zeros(n_players))
    if verbose: print("Punkte:\n", points)
   
    return points

In [4]:

# teste diese Funktion
boese_1_round(n_players=3, verbose=True)

Augen:
 [[3 6 3 6 1]
 [6 1 4 4 6]
 [6 1 2 2 1]]
Positionen der Einsen:
 [[0. 0. 0. 0. 1.]
 [0. 1. 0. 0. 0.]
 [0. 1. 0. 0. 1.]]
Wurfsummen:
 [19 21 12]
Punkte:
 [0. 0. 0.]

Out[4]:

array([0., 0., 0.])

In [5]:

# nun setzen wir die Simulation des Spiels auf:

# Anzahl der Samples
n_samples = 200

# Samplegröße
n_games = 1000

# Anzahl der SpielerInnen
n_players = 3

# initialisiere Sammellisten für Sample-Means
sample_means_rounds = []
sample_means_avg_points = []

# Loop über Samples
for ind_samples in tqdm(range(n_samples)):
    
    # initialisiere Liste der Rundenzahl zum Sieg
    rounds_list = []
    
    # initialisiere Liste der Durchschnittspunkte pro Runde
    avg_points_per_round_list = []
    
    # Loop über Spiele
    for ind_games in range(n_games):
        
        # initialisiere das Punktemaximum
        max_points = 0.
        
        # initialisiere Zähler-Array für SpielerInnen
        points_array = np.zeros(n_players)
        
        # initialisiere Rundenzähler
        ind_rounds = 0
        
        # while-Loop über die Runden
        while max_points < 100:
            
            # erhöhe Rundenzähler
            ind_rounds += 1
            
            # Erzeuge Punkte für SpielerInnen
            new_points = boese_1_round(n_players=n_players, verbose=False)
            
            # hänge die Rundendurchschnittspunkte an die Sammelliste an
            avg_points_per_round_list.append(np.mean(new_points))
            
            # addiere neue Punkte zu den bisherigen
            points_array += new_points
            
            # berechne derzeitige Höchstpunktezahl
            max_points = np.max(points_array)
            
            # print("Derzeitiges Maximum:", max_points)
         
        # hänge Rundenzahl zum Sieg an Liste an
        rounds_list.append(ind_rounds)
        
    # berechne Means im Sample und hänge sie an Sammelliste über Samples an
    sample_means_rounds.append(np.mean(rounds_list))
    
    sample_means_avg_points.append(np.mean(avg_points_per_round_list))
    

100%|██████████| 200/200 [01:23<00:00,  2.39it/s]

In [6]:

# werte Sample-Means aus, für Runden
msm_rounds = np.round(np.mean(sample_means_rounds), 2)
ssm_rounds = np.round(np.std(sample_means_rounds), 2)
print("Durchschnitt Runden bis zum Sieg:", msm_rounds, "+-", ssm_rounds)
    
# und für Durchschnittspunkte
msm_points = np.round(np.mean(sample_means_avg_points), 2)
ssm_points = np.round(np.std(sample_means_avg_points), 2)
print("Durchschnitt Punkte pro Runde:", msm_points, "+-", ssm_points)
    
    

Durchschnitt Runden bis zum Sieg: 9.95 +- 0.08
Durchschnitt Punkte pro Runde: 8.04 +- 0.06

In [7]:

# und stelle sie grafisch dar
fig = plt.figure()

plt.hist(sample_means_rounds, bins=30)
plt.errorbar(msm_rounds, 10, yerr=None, xerr=ssm_rounds, 
             fmt="o", markersize=10, color="white", ecolor="red", capsize=20, capthick=3)

plt.xlabel("Runden bis zum Sieg")
plt.ylabel("Anzahl")

plt.show()

In [8]:

fig = plt.figure()

plt.hist(sample_means_avg_points, bins=30)
plt.errorbar(msm_points, 10, yerr=None, xerr=ssm_points, 
             fmt="o", markersize=10, color="white", ecolor="red", capsize=20, capthick=3)


plt.xlabel("Durchschnittspunkte pro Runde")
plt.ylabel("Anzahl")

plt.show()

Monte-Carlo-Methoden - Simulation und Integration 29

7.5 Monte-Carlo-Integration¶

An dieser Stelle möchte ich kurz auf die Monte-Carlo-Integration zu sprechen kommen. Diese ist im wesentlichen auch nichts anderes als eine MC-Simulation, nämlich eine “Simulation eines Integrals”. Das Prinzip kann man recht einfach mit der Berechnung der Zahl Pi demonstrieren, die “durchgeführt” wird, in dem man virtuelle Pfeile auf ein Dartboard wirft, genauer gesagt, auf einen Kreis, der einem Quadrat eingeschrieben ist. Sehen wir uns das gleich mal an.

Wir simulieren hier also folgenden Prozess:

Jemand hat $N$ Pfeile (Punkte)
Er verteilt diese zufällig auf einem Quadrat mit Seitenlänge $1$
Diesem Quadrat ist ein Viertelkreis (macht die Sache einfacher) eingeschrieben
Nachdem die Punkte verteilt sind, wird unterschieden und abgezählt:
- Wie viele Punkte liegen im Viertelkreis und
- wie viele Punkte liegen außerhalb des Viertelkreises?
Das Verhältnis von Punkte im Viertelkreis zu Gesamtpunkte ist eine Näherung des Verhältnisses der Flächeninhalte des Viertelkreises ($1^2 \pi / 4$) zu jenem des Quadrats ($1^2=1$), also für die Zahl $\pi / 4$.
Wenn man das statistische Verhältnis aus der Simulation also mit 4 multipliziert, erhält man eine Näherung für die Zahl $\pi$.

Und los geht’s:

In [9]:

# definiere Funktion, um zu prüfen, ob Paare von x und y im Einheitskreis liegen
def check_in_unit_circle(x, y):
    
    # bestimme Länge von x, d.h. Anzahl der Punkte
    n_points = len(x)
    
    # das funktioniert auch für numpy-Arrays
    return np.where(x**2 + y**2 <= np.ones(n_points), np.ones(n_points), np.zeros(n_points))

# definiere Funktion zum Erzeugen und Mitteln von Werten
def simulate_value_of_pi(n_samples = 20, # Anzahl der Samples
                         n_points = 100  # Samplesize = Anzahl der Punkte
                        ):

    # initialisiere Sammelliste für Sample-Means
    sample_means_ratios = []

    # Loop über Samples
    for ind_samples in tqdm(range(n_samples)):

        # initialisiere Punkte mit x und y Koordinaten
        points_array = np.random.random(size=(2, n_points))

        # checke, welche Punkte im Einheits-(Viertel-)Kreis sind
        hits_array = check_in_unit_circle(*points_array)  # kurz für (points_array[0], points_array[1])

        # berechne den Näherungswert für Pi
        inside_ratio_times_4 = 4 * np.sum(hits_array)/n_points

        # berechne Means im Sample und hänge sie an Sammelliste über Samples an
        sample_means_ratios.append(inside_ratio_times_4)
        
    # werte Sample-Means aus, für Pi-Näherungen, und gib sie mit dem Array als Ergebnis zurück
    return sample_means_ratios, np.mean(sample_means_ratios), np.std(sample_means_ratios)

In [10]:

# Rufe die Simulation auf
sample_means_ratios, msm_ratios, ssm_ratios = simulate_value_of_pi(n_samples = 200, n_points = 1000)

print("Näherung für Pi:", msm_ratios, "+-", ssm_ratios)

print("Unterschied zu Pi:", msm_ratios - np.pi)

100%|██████████| 200/200 [00:00<00:00, 26305.65it/s]

Näherung für Pi: 3.139 +- 0.05055175565695027
Unterschied zu Pi: -0.0025926535897933256

In [11]:

# und stelle sie grafisch dar
fig = plt.figure()

plt.hist(sample_means_ratios, bins=30)
plt.errorbar(msm_ratios, 10, yerr=None, xerr=ssm_ratios, 
             fmt="o", markersize=10, color="white", ecolor="red", capsize=20, capthick=3)

plt.xlabel("Runden bis zum Sieg")
plt.ylabel("Anzahl")

plt.show()

In [12]:

# Setze Anzahl der Punkte für den Plot neu
n_points = 1000   # erhöhe das auch auf 10000 und 100000

# mache ein Sample mit Farben und stelle es grafisch dar
points_array = np.random.random(size=(2, n_points))

# checke, welche Punkte im Einheits-(Viertel-)Kreis sind
hits_array = check_in_unit_circle(*points_array)

# mache farb-Array
# Vektor mit lauter "r"
red_array = np.chararray((n_points))
red_array[:] = "r"
red_array = np.array(red_array.astype(str))

# Vektor mit lauter "b"
blue_array = np.chararray((n_points))
blue_array[:] = "b"
blue_array = np.array(blue_array.astype(str))

# Farbarray, das zwei Farben hat, je nach drin oder draußen
color_array = np.where(hits_array, red_array, blue_array)

# nun plotten wir das
fig = plt.figure()

# setze Ascpect-Ratio des Plots auf 1
ax = plt.gca()
ax.set_aspect(1)

# plotte die Zufallspunkte
plt.scatter(*points_array, c=color_array, s=0.1)

plt.xlabel("x")
plt.ylabel("y")

plt.show()

7.6 Übungsaufgabe: Experimentieren mit der MC-Simulation des Wertes von $\pi$¶

Nehmen Sie nun die oben definierte Funktion für die MC-Simulation des Wertes von $\pi$ zur Hand und verändern Sie die Parameter für Anzahl der Runs und Punkte. Können Sie zeigen, dass der numerische Fehler des Means of Sample-Means wie eins durch die Wurzel aus dem Produkt dieser beiden Anzahlen skaliert?

In [13]:

# initialisiere Liste für Ergebnisse für Sigma
sigma_list = []

# definiere Liste für verschiedene Werte für N
n_list = [10, 100, 1000, 10000, 100000, 10000000, 100000000]

# loop über diese Werte von N
for an_n in n_list:

    # rufe die Simulation auf, mit entsprechendem Wert für N
    # die Anzahl der Samples lassen wir gleich
    _, _, ssm_ratios = simulate_value_of_pi(n_samples = 20, n_points = an_n)
    
    # hänge Wert von sigma an die Sammelliste an
    sigma_list.append(ssm_ratios)
    
# gib die Liste aus
print(sigma_list)

100%|██████████| 20/20 [00:00<00:00, 35910.14it/s]
100%|██████████| 20/20 [00:00<00:00, 24485.14it/s]
100%|██████████| 20/20 [00:00<00:00, 12885.73it/s]
100%|██████████| 20/20 [00:00<00:00, 5320.70it/s]
100%|██████████| 20/20 [00:00<00:00, 586.82it/s]
100%|██████████| 20/20 [00:03<00:00,  5.17it/s]
100%|██████████| 20/20 [01:13<00:00,  3.69s/it]

[0.5200000000000001, 0.17385051049680592, 0.050237834348228025, 0.02031333552127766, 0.006852599798616635, 0.0004790655136826607, 0.00014928203326588165]

In [14]:

# stelle das wieder grafisch dar und vergleiche es
# mit einem Plot von 1/sqrt(N)
fig = plt.figure()

# plotte die Liste der Sigmas
plt.plot(n_list, sigma_list, label=("Data"))
plt.plot(n_list, 1/np.sqrt(n_list), label=r"$1/\sqrt{N}$")

# Achsenbeschriftungen
plt.xlabel("N")
plt.ylabel(r"$\sigma$")

# Verwende logarithmische Skalen auf beiden Achsen
# dadurch ist ein Verhalten wie 1/sqrt(N) eine gerade Linie
plt.xscale("log")
plt.yscale("log")

# zeige Legende
plt.legend()

plt.show()

Stochastische Optimierung und Genetische Algorithmen

Leave a reply

Die Jupyter-Notebooks zur Lehrveranstaltung finden Sie im zugehörigen GitHub-Repository.

Stochastische Optimierung und Genetische Algorithmen

6 Stochastische Optimierung und Genetische Algorithmen¶

In diesem Notebook wollen wir uns letztlich mit stochastischer Optimierung und genetischen Algorithmen befassen. Wir tun das zwar hauptsächlich auf einem pragmatischen Niveau, aber auch sodass wir in der kurzen Zeit bereits etwas damit anfangen können.

Zu diesem Zweck brauchen wir kurz ein paar Vorüberlegungen zu den Begriffen Zufallszahlen und Sampling (Stichproben), und zwar hauptsächlich, wie wir diese in Python bekommen und woher.

6.1 Zufallszahlen¶

Echte Zufallszahlen sind schwer zu erzeugen. Daher bedienen sich Computer-Nutzer sogenannter Pseudo-Zufallszahlen. Damit ist gemeint, dass man einen (Pseudo-Zufallszahlen-)Generator hat, der eine bestimmte Methode verfolgt, um die gewünschte Anzahl von Zahlen so zu erzeugen, dass sie möglichst gut der gewünschten Wahrscheinlichkeitsverteilung entsprechen. Sehen wir uns das gleich einmal anhand einiger Beispiele an.

Zunächst die Imports von heute:

In [1]:

%matplotlib inline

import numpy as np

# Importiere Statistische Package aus SciPy
import scipy.stats as scs

import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

from tqdm import tqdm

NumPy hat ein Modul namens random, in dem man die wichtigsten Dinge finden kann, z.B.:

In [2]:

# Zufallszahlen zwischen 0 und 1, gleichverteilt

# Fixiere den Seed, um reproduzierbare Ergebnisse zu erhalten:
#np.random.seed(1234)

# Generiere ein Feld von Zufallszahlen
np.random.random(size=(4, 5))

Out[2]:

array([[0.79197118, 0.68952016, 0.24804623, 0.54430981, 0.78626382],
       [0.55648307, 0.76230378, 0.1462054 , 0.62987766, 0.37530907],
       [0.15204072, 0.68521923, 0.45125418, 0.70348015, 0.62994591],
       [0.70240103, 0.97066536, 0.63898829, 0.5710686 , 0.6405659 ]])

In [3]:

# Zufallszahlen zwischen 1 und 2
a = 1
b = 2
(b - a) * np.random.random(size=(4, 5)) + a

Out[3]:

array([[1.30387473, 1.73281576, 1.99759377, 1.96305614, 1.130397  ],
       [1.0255525 , 1.22743875, 1.81184428, 1.10726127, 1.62034331],
       [1.90063649, 1.61034101, 1.86227192, 1.31539797, 1.07224203],
       [1.79628723, 1.98071287, 1.01562668, 1.81603579, 1.98357505]])

In [4]:

# Zufallszahlen aus der Normalverteilung
normal_values_x = np.random.normal(0., 1., size=(1000))
normal_values_y = np.random.normal(0., 1., size=(1000))

fig = plt.figure()

plt.scatter(normal_values_x, normal_values_y, s=0.1)

plt.show()

Stochastische Optimierung und Genetische Algorithmen 34

Zur Erinnerung: Wir können jederzeit die Eigenschaften einer so erzeugten Verteilung überprüfen, z.B. den Mittelwert und die Standardabweichung, aber auch höhere Momente wie Skewness oder NumPyKurtosis:

In [5]:

# checke Mittelwert
print("Mittelert:", np.mean(normal_values_x))

# checke Standardabweichung
print("Standardabweichung:", np.std(normal_values_x))

# checke Skewness (Asymmetrie)
print("Skewness:", scs.skew(normal_values_x))

# checke Kurtosis ("Dicke der Extrembereiche im Vergleich zu Normal")
print("Kurtosis:", scs.kurtosis(normal_values_x))

Mittelert: -0.043983512854805236
Standardabweichung: 1.0099340409290625
Skewness: 0.1242659577410384
Kurtosis: -0.12900228333213315

6.2 Sampling¶

Mit diesen ersten Schritten haben wir ein Gefühl für das Arbeiten mit Zufallszahlen in Python bekommen. Der nächste Schritt ist, aus einer Vorhandenen Menge von Daten eine Stichprobe zu ziehen. Man nennt diesen Schritt auch einfach Sampling (vom englischen Begriff her).

Zunächst sollte ich erwähnen, dass wir bereits im vorigen Abschnitt “gesampelt” haben, denn die entsprechenden NumPy-Funktionen ziehen ja auch eine Stichprobe aus der gewünschten Verteilung. Wenn es also nur darum geht, Werte aus einer der Standard-Verteilungen zu bekommen, dann benutzt man einfach den entsprechenden Befehl.

Wenn wir allerdings Daten vorgegeben haben und aus diesen unsere Stichprobe ziehen wollen, dann müssen wir das den Computer aus einer bestimmten Menge (einem Array) zufällig die gewünschte Anzahl von Werten ziehen lassen. In NumPy gibt es auch dafür einen Befehl.

In [6]:

# Erzeuge ein einfaches Array von Daten
all_data = np.arange(1, 20)

# hole mir eine zufällige 3x5 Matrix von Werten aus diesem Array von 1 bis 20
np.random.choice(all_data, size=(3, 5))

Out[6]:

array([[18,  8,  1, 12,  4],
       [ 1, 15,  6, 16,  1],
       [10,  1, 10,  6,  2]])

In [7]:

# hier kommen einige Zahlen mehrfach vor. Wenn man das nicht möchte:
np.random.choice(all_data, size=(17), replace=False)

Out[7]:

array([10,  3, 13,  1, 18, 19,  8, 17, 16, 11,  5, 12, 15,  4,  9,  2,  6])

In [8]:

# und schließlich kann man noch ein Array mit Wahrscheinlichkeiten
# übergeben, nach der die Elemente bestimmt werden sollen

# Beispiel: Ein Würfel mit den Augenzahlen 1, 1, 1, 2, 2, 3
# zunächst die Möglichkeiten für die Augen
die_faces = np.array([1, 2, 3])

# Dann die relativen Häufigkeiten
die_probs_raw = np.array([3, 2, 1])

# das Argument p muss jedoch auf 1 normiert sein
die_probs = die_probs_raw/np.sum(die_probs_raw)

print("Wahrscheinlichkeiten für 1, 2, 3:", die_probs, "\n")

# Erzeuge nun einige Würfe mit diesem Würfel
n_rolls = 300
die_rolls = np.random.choice(die_faces, size=n_rolls, p=die_probs)

print("Ein paar Würfe:", die_rolls)

Wahrscheinlichkeiten für 1, 2, 3: [0.5        0.33333333 0.16666667] 

Ein paar Würfe: [1 1 1 1 2 3 2 1 2 2 2 2 3 1 2 1 3 1 2 1 2 2 2 2 2 3 3 2 1 1 3 2 3 1 1 1 1
 1 3 1 1 2 2 1 1 1 1 3 1 2 2 1 2 1 3 1 1 1 2 3 2 1 2 1 1 3 1 2 2 1 1 1 2 3
 3 1 2 3 2 2 1 1 2 1 2 2 2 2 1 1 1 3 2 1 1 1 1 1 1 1 2 1 1 2 3 1 3 2 1 3 2
 2 2 1 1 1 3 2 1 1 1 2 3 3 1 2 1 1 2 2 2 1 2 1 2 2 2 1 2 2 3 3 3 1 1 2 1 2
 3 1 3 1 1 2 1 1 2 3 1 2 1 2 1 1 3 2 1 2 3 2 3 1 3 1 1 2 1 2 3 1 3 2 2 1 1
 1 3 3 3 3 1 3 1 1 2 1 2 2 1 1 1 1 1 3 3 2 3 3 3 1 2 1 2 1 1 1 1 1 2 3 3 2
 2 2 1 2 1 2 1 1 2 1 2 3 3 2 2 1 1 1 1 1 1 1 3 1 1 2 1 1 3 1 1 2 2 1 1 2 2
 2 2 1 3 1 2 1 1 2 1 1 2 1 3 3 1 3 1 1 1 1 1 1 3 2 1 2 1 2 2 2 2 1 1 1 1 1
 1 2 2 2]

In [9]:

# Passt das zusammen?

# Was sollten die Ergebnisse sein?
print("Theoretische Anzahl:", n_rolls * die_probs)

fig = plt.figure()

plt.hist(die_rolls, bins=[1,2,3,4])

plt.show()

Theoretische Anzahl: [150. 100.  50.]

6.3 Stochastische Optimierung¶

Mit diesen Werkzeugen können wir uns an die stochastische Optimierung wagen. Was bedeutet das eigentlich? Wir hatten in der vorigen Einheit mit Optimierung zu tun, ganz im Allgemeinen. Dabei sucht man grundsätzlich das Optimum einer Funktion von meist mehreren Variablen.

Die Methoden, die wir dabei besprochen haben waren zunächst einmal “brute force”, also alle Möglichkeiten durchzugehen und die beste über einen globalen Vergleich zu identifizieren. Danach haben wir aber auch noch mit “Gradient Descent” experimentiert, bei dem man die Ableitung der Funktion nutzt, um schrittweise an den tiefsten Punkt zu kommen.

Ein konkretes Problem bei Gradient Descent z.B. ist, dass man in einem lokalen Minimum “steckenbleiben” kann, wenn der Weg dort hinein führt und die Schrittweite zu klein ist, um wieder herauszukommen, obwohl das globale Minimum ein anderes ist. Man kann sich das so vorstellen wie eine riesige Berg- und Tal-Landschaft mit vielen Tälern, Mulden, Gipfeln, Bergrücken, Löchern, etc., und irgendeins davon ist der niedrigste Punkt. Insbesondere wenn diese Landschaft in hochdimensionalen Räumen betrachtet wird, leuchtet ein, dass man es mit Gradient Descent vielleicht schwer haben könnte.

Das hat vor allem auch damit zu tun, dass man diese Funktions-“Landschaft” gar nicht wirklich kennt, weil man entweder keine Ahnung hat, wie die Funktion überhaupt aussieht, oder weil es sehr teuer ist, die Funktion zu berechnen. Vor allem in so einem Fall hilft es, wenn man sich nicht die gesamte Landschaft ansehen muss, sondern Schritt für Schritt mit sehr wenigen Werten zu einer Lösung kommen kann.

Eine mögliche Alternative hier ist, einfach viele zufällige Werte aus dem Wertebereich zu nehmen (aber längst nicht alle, also ein Sample), und für diese Werte den Wert der Funktion zu bestimmen. Der kleinste davon ist dann eine Näherung für das Minimum. Im folgenden Beispiel ist aus Gründen der Anschaulichkeit die Funktion bekannt, sodass wir sie auch plotten können und uns den Algorithmus etwas ansehen können. Behalten Sie aber bitte im Kopf, dass wir das im Normalfall nicht hätten, sondern einfach nur die Samples, für die wir die Funktion berechnen. Sehen wir uns gleich einmal an, ob sowas funktioniert:

In [10]:

# definiere eine Funktion für die Suche nach deren Minimum
def a_landscape(x, y):
    # mehrere Täler und Berge, mit einer globalen Neigung
    our_function = 4*np.sin(x) + 6*np.sin(y) - 0.5 * x - 0.2 * y

    return our_function

        
# plotten wir das mal

# definiere x-Werte
x_vals = np.linspace(-10, 10, 500)

# definiere y-Werte
y_vals = np.linspace(-10, 10, 500)

# erzeuge x-y-Grid für 3D Plots
X, Y = np.meshgrid(x_vals, y_vals)

Z = a_landscape(X, Y)

# neue Grafik
fig = plt.figure()

# 3D Achsen erzeugen
ax = fig.add_subplot(1,1,1, projection='3d')

# erzeuge 3D-Oberflächenplot
ax.plot_surface(X, Y, Z, cmap="magma")

plt.show()

Stochastische Optimierung und Genetische Algorithmen 36

In [11]:

# für Reproduzierbarkeit die nächste Zeile verwenden
# np.random.seed(12345)

sample_size = 100

# nun wählen wir einen Satz Werte zufällig aus unserem Bereich:
# Wertebereich für x und y
a = -10
b =  10


def evaluate_a_sample(size=sample_size, verbose=False):
    # ziehe eine Stichprobe von 2xSamplesize (für x und y)
    test_sample = (b - a) * np.random.random(size=(2, sample_size)) + a

    # Werte die Funktion an diesen Punkten aus
    sample_values = a_landscape(*test_sample)  

    if verbose: print("Alle Funktionswerte des Samples:\n", sample_values)

    the_minimum = np.min(sample_values)

    if verbose: print("Der kleinste Wert im Sample:", the_minimum)
    
    return the_minimum

evaluate_a_sample(100, verbose=True)

Alle Funktionswerte des Samples:
 [  1.17142875   0.97573562  -3.88491455   2.78113873  10.03976207
   3.26409715   1.29010883  -1.15698163  -0.81935754   4.29662903
  -2.12142552  -4.50508201  -1.78235587  -1.17330563   4.33399325
  -7.9429288    8.26670808  -6.77115772  -5.60014475   4.4569142
   0.34175233  -0.7787587    3.12033423  -1.3133641   -1.72820894
  -2.87851437   2.47129906  -0.36734833   0.83624414  -2.3955801
  -4.89375516  -2.77561799   4.3778461   -1.6969477   -8.67149128
  -5.05554994  -1.96724822  -2.1786499    3.60664283   1.22486584
   7.41380034  -2.3077217   -2.80336404   2.60211965  -1.35013164
  -5.30006766   3.91344113   3.46325515   8.23429133  -3.22076531
  -6.77810866   4.03788049  -0.26031826   3.03814719   1.25850898
   3.27579486  -0.74325716  -1.87642393  -3.00947318   4.6310794
  -8.88558398  -4.84110639  -1.29279623   9.40325394  -4.22371007
  13.29426299  -1.92711722   3.26627624  -0.63672832  -4.32156533
 -11.90296007  -3.66432569 -10.37227186   5.5145162   -5.42790445
   0.66389439   7.41867903  -0.2858999   -1.00233719   7.03982306
   5.09687712   7.67575945  10.58376319  -0.9602119   -9.41629795
  -6.47610497  -5.80803747  -3.37737569   8.03517916   1.65976662
   5.61108428  -2.07240621   5.779313    -4.1636313   -5.62779617
  -6.95856956   3.32749184  -1.51709816   1.46712751  13.22907335]
Der kleinste Wert im Sample: -11.902960073154448

Out[11]:

-11.902960073154448

In [12]:

# Anzahl der Samples
n_samples = 200

# Eine Liste mit Resultaten anlegen
min_list = []

# Mache die Auswertung für einige Samples
for i in range(n_samples):
    min_list.append(evaluate_a_sample(100))
    

print("Liste der Minima:", min_list, "\n")

print("Minimum der Minima:", np.min(min_list))
    
fig = plt.figure()

plt.hist(min_list)

plt.show()

Liste der Minima: [-11.64478035499988, -11.632923326168536, -12.03483233279757, -11.694570337481183, -10.797256628606783, -11.057610276532678, -10.767234812207075, -13.239854794940975, -12.13968826353819, -13.238118833968828, -13.223021786640718, -10.78030295716005, -12.739959347247558, -12.628887912071688, -8.419735759110473, -13.243088458187328, -11.92871001436789, -10.325902506402471, -11.782331596862367, -12.15880175426219, -11.158539455859302, -11.14757635716059, -12.859272859978859, -12.147087305610164, -13.03120189030213, -11.514678656858244, -12.529324264602648, -9.76117268489881, -13.152047551321584, -13.125506039748862, -10.720219243823813, -10.562433315303311, -13.0711975122816, -12.07025776642195, -9.253504873207989, -12.610791643180676, -12.638198715556449, -12.26817080654964, -10.323230596378991, -12.663676617368196, -12.704187698652062, -13.197403325019218, -13.519597628402899, -10.794784124927357, -11.60822626585363, -13.684819352483318, -12.01919138656807, -9.351741045449296, -11.983382960225073, -10.493174031549657, -13.034472626015885, -11.537872760664333, -8.443780084996716, -10.176831755632517, -11.640725657423067, -11.928137668010026, -12.290323097731196, -10.85826827683184, -12.180059772356236, -11.900275789327788, -9.631930859729154, -12.701852612996415, -10.122477043508624, -11.693826235054924, -10.916835857817773, -13.440726946169052, -11.419017879327711, -12.233725258340373, -11.871437320808072, -12.892083045586547, -10.525104742028237, -12.45364105439871, -10.32886348719294, -12.816988906597686, -11.56625201575246, -10.199382716362035, -12.178819074756241, -13.396311477232857, -10.31535218707413, -13.162457761182282, -10.520831424741095, -11.77149615854568, -13.924964177506912, -10.824462441690045, -12.396013297728091, -11.784046099426641, -13.267915158585861, -12.602514087361806, -12.281922980472851, -13.548733116585833, -11.401254851664767, -11.819471972724006, -13.182762655665968, -12.878643702848894, -13.058411992199494, -12.403348132784682, -11.241860624167145, -11.657916054305671, -10.291750255155646, -11.779266890747882, -10.660393539100788, -11.711926326276565, -9.608327229691138, -12.401985873530709, -11.064214251131727, -11.948065689084277, -11.590177384457412, -12.922798523530924, -12.224135677670441, -12.005999228122095, -10.277047980629135, -10.342150554736273, -8.469642404899506, -11.332570745040004, -12.929787789086394, -12.997263827358434, -10.91110639210329, -9.88193403129701, -11.773502466016295, -12.976214645314288, -10.48416700409964, -12.426582227990485, -12.622928970122341, -11.618850614031183, -10.382504537211284, -11.212992274468066, -11.572396254423944, -13.283896713387485, -11.08016357160019, -12.128746900915605, -12.945394349087678, -13.241782812827434, -12.161016758515327, -12.555524326581306, -12.690519982520337, -12.667184013307365, -12.30501572694944, -13.157361006470849, -9.820065018613219, -11.21183799245604, -11.387273723539579, -11.792597529058312, -13.192160294909387, -12.73935995541893, -11.651576387715195, -13.16923574597592, -12.00795948266077, -13.158554821362122, -10.89818234825325, -13.141129993617751, -13.151597622374046, -12.414747034535988, -10.720731783225089, -12.503317532840562, -9.834112746360875, -12.325210720875353, -12.270495581852229, -12.91734538076934, -12.855031100474827, -13.247557501805469, -11.813684878913662, -12.155164966956765, -10.594581476160924, -11.665224379951619, -12.000847782907709, -11.519773819136665, -13.369778674554993, -10.499452842543109, -10.294484166920222, -12.828197225700231, -10.194923842325727, -11.634594284289665, -11.150113938855581, -10.137359443566954, -12.94867293839079, -13.44954672252019, -13.062207555604088, -10.458073996987133, -10.61006346851499, -13.309109066022955, -11.56738841282575, -13.504263888781608, -11.884538372643911, -13.527952117473344, -11.414016769023823, -9.801423485166206, -12.191631772819012, -12.115792586515663, -11.920351291901804, -10.773523495391617, -11.397480492414843, -12.048711088595294, -12.588774131916795, -11.645729224995215, -14.097563568947432, -9.78177000829253, -11.320192005085268, -12.261253420981973, -13.552678861231636, -11.581742869958646] 

Minimum der Minima: -14.097563568947432

FSeklqVJN74JIkC1ySmmWBS1KjLHBJapQFLkmNssAlqVEWuCQ16n8BlzyWs+0UXMQAAAAASUVORK5CYII=

Letzten Endes wird man die Sache aber etwas cleverer angehen als wir hier in diesem Beispiel und z.B. bei jedem neuen Sample die Position des Minimums (oder der 10 kleinsten Werte) aus dem vergangenen Sample als Basis dafür hernehmen, wo die Punkte des neuen Samples konzentriert werden sollten. Dadurch konzentriert man die Suche auf interessante Bereiche.

Diese Taktik geht bereits in Richtung des nächsten Themas und ist daher eine gute Überleitung, nämlich:

6.4 Genetische Algorithmen¶

Ein genetischer Algorithmus ist eine Taktik zur stochastischen Optimierung, d.h., zum Finden der optimalen Parameter für eine Funktion, sodass diese minimal oder maximal wird. Die Basis für die “Genetik” bei der Optimierung ist eine Art Codierung des Inputs, z.B. ein Vektor von Zahlen. Aus diesem Vektor wird dann der Wert der zu optimierenden Funktion berechnet, die in diesem Zusammenhang “Fitnessfunktion” heißt.

Bei der Optimierung selbst geht man über mehere Schritte, die mit “Generationen” verglichen werden, weil sie mehrere “Individuen” dieser Vektoren enthalten. Von einer Generation zur nächsten gibt eine Auswahl der “fittesten” Individuen, genannt “Eltern”, ihre “Erbinformation” weiter. Dadurch entstehen im Laufe der Generationen immer fittere Individuen, d.h. wir nähern uns dem Optimum der Fitnessfunktion.

6.5 Beispiel: Das binäre Rucksackproblem¶

Warum ist das interessant? Nehmen wir z.B. ein kombinatorisches Optimierungsproblem etwas genauer unter die Lupe, das als “binäres Rucksackproblem” bezeichnet wird. Denken Sie dabei etwa an einen Fahrradboten. Dieser hat einen Rucksack für den Transport von Gütern, die er ausliefert. Jedes Ding, das er liefern kann, hat dabei ein Gewicht und einen Preis. Der Bote packt für eine Fahrt den Rucksack voll mit Dingen, sodass der gesamte Preis möglichst hoch wird, das gesamte Gewicht jedoch die Kapazität des Rucksacks nicht überschreitet. Dabei darf er jedes Ding entweder nicht mitnehmen oder genau einmal mitnehmen (daher binär).

Dieses Problem ist, wie gesagt, kombinatorisch. Man kann, um es zu lösen, im Prinzip auch per “brute force” alle Möglichkeiten durchgehen und dafür das Maximum der aufsummierten Preise finden. Das wird allerdings sehr schnell sehr langwierig. Bei der Abkürzung der Zeit für die Lösung hilft der genetische Algorithmus.

Sehen wir uns das nun im Detail an.

In [13]:

# Tabelle der Anzahl der Möglichkeiten, Dinge 
# in den Rucksack zu packen, wenn es _N_ zur Auswahl gibt
for n in np.arange(1, 62, 5):
    # für jedes Ding gibt es 2 Möglichkeiten (mit, nicht mit)
    # daher insgesamt 2**n
    print(n, "->", 2**n)

1 -> 2
6 -> 64
11 -> 2048
16 -> 65536
21 -> 2097152
26 -> 67108864
31 -> 2147483648
36 -> 68719476736
41 -> 2199023255552
46 -> 70368744177664
51 -> 2251799813685248
56 -> 72057594037927936
61 -> 2305843009213693952

In [14]:

# wie lange dauert sowas ca.? 
# nehmen wir eine Mikrosekunde für eine Kombination an
2**61 * 1.e-6 / 3600 / 24 / 365   # hier sollten Jahre herauskommen

Out[14]:

73117.802169384

Nun ist soweit klar, dass es mit der Zeit relativ schnell knapp wird. Wie löst man so ein Problem aber jetzt konkret mit einem genetischen Algorithmus? Wir brauchen folgendes.

Ein Encoding der “genetischen Information” für jedes Individuum einer Generation/Population (also hier für jede Kombination von Dingen, die eingepackt werden)
Einen Mechanismus, der uns die erste Generation von Individuen erzeugt
Einen Mechanismus (oder mehrere), der den genetischen Code von Individuen von einer zur nächsten Generation verändern kann
Eine Vorschrift, mit der die Fitness jedes Individuums berechnet werden kann
Eine Vorschrift dafür, welche und wie viele der fittesten Individuen einer Generation zu Eltern für die nächste Generation werden

Wir brauchen natürlich auch die Basis für dieses Problem, nämlich die Liste mit den Dingen, ihren Gewichten und Preisen, sowie das Gewichtslimit für den Rucksack. Aber dann kann es schon losgehen. Also legen wir los.

In [15]:

# Setze das Limit für den Rucksack
weight_limit = 15

# Setze N
num_items = 20

# Erzeugen der Liste der Dinge mit Gewichten und Preisen
item_weights = np.round((3.5 - 0.2) * np.random.random(size=num_items) + 0.2, 2)
item_prices  = np.round((30. - 0.1) * np.random.random(size=num_items) + 0.1, 2)

In [16]:

# was ist zum Beispiel mit Ding nummer 5?
(item_weights[4], item_prices[4])

Out[16]:

(0.96, 27.42)

In [17]:

# Das Encoding für eine Variante des Einpackens 
# ist ein Vektor mit _N_ Zahlen, die entweder 1 oder 0 sein können
test_encoding = np.random.choice([0, 1], size=num_items, replace=True)
test_encoding

Out[17]:

array([0, 1, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1])

In [18]:

# Damit kann man leicht das Gewicht für eine Variante ausrechnen
the_weight = np.sum(item_weights * test_encoding)
the_weight

Out[18]:

18.110000000000003

In [19]:

# Ebenso funktioniert der Gesamtpreis
the_price = np.sum(item_prices * test_encoding)
the_price

Out[19]:

151.51999999999998

In [20]:

# Testen wir nun einmal kurz die brute-force-Lösung
# D.h. wir gehen durch alle Möglichkeiten und suchen die beste raus

# Zunächst definieren wir aber die Fitness-Funktion:
# wir schreiben diese Funktion so, dass sie mehrere Encodings
# gleichzeitig abarbeiten kann
def fitness(encodings):
    # berechne Gewicht und Preis
    the_weights = np.sum(item_weights * encodings, axis=1)
    the_prices = np.sum(item_prices * encodings, axis=1)
    
    # testen, ob das Gewicht in den Rucksack passt
    the_prices = np.where(the_weights <= weight_limit * np.ones(len(encodings)), 
                          # ja, passt, die Fitness ist der Preis
                          the_prices,  
                          # nein, passt nicht, die Fitness wird auf 0 gesetzt
                          np.zeros(len(encodings))
                         )
    
    return the_prices, the_weights

In [21]:

# Nun zum Ausprobieren aller Möglichkeiten:

# setze Wert für besten Preis an
best_price = 0.

# setze Wert für bestes Encoding an
best_encoding = np.zeros(num_items)

# setze Wert für Gewicht zum besten Preis an
best_weight = 0.

# loop über alle natürlichen Zahlen bis 2**N
for counter in tqdm(np.arange(0, 2**num_items, 1)):
    
    # generiere binäre Darstellung des Zählers (als String) und ergänze führende Nullen
    counter_binary = np.binary_repr(counter).zfill(num_items)
    
    # verwandle den String in ein numpy-Array mit 0en und 1en
    current_encoding = np.array([int(a_letter) for a_letter in counter_binary])
        
    # berechne den Preis (inklusive Gewichtscheck) über die Fitness-Funktion
    the_price, the_weight = fitness([current_encoding])
    
    # Abfrage, ob wir eine bessere Lösung gefunden haben als bisher
    if the_price > best_price:
        
        # ersetze Bestwerte für Preis, Encoding und Gewicht
        best_price    = the_price
        best_encoding = current_encoding
        best_weight   = the_weight
        
        
print("The best price is", best_price)
print("at a weight of", best_weight)
print("The best encoding is\n", best_encoding)
    

100%|██████████| 1048576/1048576 [00:26<00:00, 39137.20it/s]

The best price is [242.98]
at a weight of [14.95]
The best encoding is
 [1 1 1 1 1 0 0 0 0 1 1 0 1 1 0 0 1 0 0 0]

In [22]:

# Nun zum genetischen Algorithmus

# definiere Anzahl der Eltern
num_parents = 20

# definiere Anzahl Kinder pro Elternpaar
num_c_p_p = 3

# definiere Anzahl der Individuen in einer Generation
# entspricht dem Quadrat der Anzahl der Eltern 
# (wegen der Möglichkeiten von Crossovers)
generation_size = num_c_p_p * num_parents**2

# definiere maximale Anzahl der Generationen
max_generations = 10

# definiere Crossover von zwei Encodings, d.h. rekombiniere die beiden
# an einer zufällig gewählten Stelle
def crossover(encoding_1, encoding_2):
    
    # wähle eine zufällige Stelle aus der Länge der Encodings
    cut_position = np.random.choice(range(num_items))
    
    # rekombiniere die beiden Arrays zu einem mit Schnitt an dieser Stelle
    new_encoding = np.hstack((encoding_1[:cut_position], encoding_2[cut_position:]))
    
    return new_encoding

# erzeuge Generation 0
next_generation = np.random.choice([0, 1], size=(generation_size, num_items), replace=True)

# Loop über die Generationen
for count_generations in range(max_generations):
    
    # print(next_generation)
    
    # bestimme die Fitness aller Individuen in dieser Generation
    the_prices, the_weights = fitness(next_generation)
    
    # print(the_prices)
    
    # bestimme Reihenfolge der Indizes nach Fitness der Individuen
    the_ranking = np.argsort(the_prices)[::-1]
    
    # print(the_ranking)
        
    # suche die nächsten Eltern aus den besten aus
    the_parents = (next_generation[the_ranking])[:num_parents]
    
    # baue die nachfolgende Generation aus den Eltern plus 
    # num_parents x num_parents "Kindern" zusammen
    the_children = []
    
    # erzeuge Kinder durch Crossover, d.h. Kombination der genetischen
    # Codes der beiden Eltern an einer bestimmten Stelle
    # Erster Loop über alle Eltern
    for parent_1 in the_parents:
        
        # Zweiter Loop über alle Eltern
        for parent_2 in the_parents:
            
            # Zusätzlicher Loop über die Anzahl der Kinder pro Elternpaar
            for child_counter in range(num_c_p_p):
                
                # hänge alle möglichen Crossovers in eine Liste zusammen
                the_children.append(crossover(parent_1, parent_2))
    
    # mache aus der Liste ein Array
    next_generation = np.array(the_children)
    
    # hier sind auch die Eltern wieder dabei, weil ein Crossover eines Encodings
    # mit sich selbst das gleiche Encoding nochmals erzeugt
    
    
    # print("parents", the_parents)
    # print("children", the_children)
    # print("new gen.", next_generation)
    
    
    # Output für diese Generation
    print("Gen.:", count_generations, "Beste Fitness:", np.round(np.max(the_prices), 2),
          "mit Gewicht ", np.round(the_weights[the_ranking[0]], 2), "bestes Encoding:", the_parents[0])
        

Gen.: 0 Beste Fitness: 215.22 mit Gewicht  14.69 bestes Encoding: [1 1 1 1 1 0 0 0 1 1 0 0 0 1 1 0 1 0 0 0]
Gen.: 1 Beste Fitness: 241.22 mit Gewicht  14.94 bestes Encoding: [1 0 1 1 1 0 0 0 1 1 1 1 1 1 1 0 1 0 0 0]
Gen.: 2 Beste Fitness: 241.22 mit Gewicht  14.94 bestes Encoding: [1 0 1 1 1 0 0 0 1 1 1 1 1 1 1 0 1 0 0 0]
Gen.: 3 Beste Fitness: 241.22 mit Gewicht  14.94 bestes Encoding: [1 0 1 1 1 0 0 0 1 1 1 1 1 1 1 0 1 0 0 0]
Gen.: 4 Beste Fitness: 241.22 mit Gewicht  14.94 bestes Encoding: [1 0 1 1 1 0 0 0 1 1 1 1 1 1 1 0 1 0 0 0]
Gen.: 5 Beste Fitness: 241.22 mit Gewicht  14.94 bestes Encoding: [1 0 1 1 1 0 0 0 1 1 1 1 1 1 1 0 1 0 0 0]
Gen.: 6 Beste Fitness: 241.22 mit Gewicht  14.94 bestes Encoding: [1 0 1 1 1 0 0 0 1 1 1 1 1 1 1 0 1 0 0 0]
Gen.: 7 Beste Fitness: 241.22 mit Gewicht  14.94 bestes Encoding: [1 0 1 1 1 0 0 0 1 1 1 1 1 1 1 0 1 0 0 0]
Gen.: 8 Beste Fitness: 241.22 mit Gewicht  14.94 bestes Encoding: [1 0 1 1 1 0 0 0 1 1 1 1 1 1 1 0 1 0 0 0]
Gen.: 9 Beste Fitness: 241.22 mit Gewicht  14.94 bestes Encoding: [1 0 1 1 1 0 0 0 1 1 1 1 1 1 1 0 1 0 0 0]

6.6 Übungsaufgabe: Pushen Sie das Rucksackproblem an die Grenzen¶

Nehmen Sie den Code von eben und experimentieren Sie damit. Sie könnten z.B. damit folgendes tun:

Verändern Sie die Anzahl der Eltern (und damit auch die Generationsgröße) und prüfen Sie, ob die Lösung dadurch näher an die brute-force-Lösung herankommt
Verändern Sie die Anzahl der Kinder pro Elternpaar und überprüfen Sie den Effekt
Verändern Sie das Limit für den Rucksack
Verändern Sie die Limits für die Preise und Gewichte
Finden Sie heraus, wie weit Sie $N$ auf Ihrem Rechner ohne Probleme nach oben schrauben können
Implementieren Sie ein Timing für Teile eines Runs und den gesamten Run
Visualisieren Sie die Entwicklung des Timings mit $N$

In [ ]:

Grundlagen der Optimierung und Gradient Descent

Leave a reply

Die Jupyter-Notebooks zur Lehrveranstaltung finden Sie im zugehörigen GitHub-Repository.

Grundlagen der Optimierung und Gradient Descent

5. Grundlagen der Optimierung und Gradient Descent¶

Optimierung begegnet uns nahezu überall in modernen Problemen und interessanten Fragestellungen. Wir werden uns in diesem Notebook mit den Grundlagen der Optimierung befassen und dann auch noch einen konkreten Optimierungs-Algorithmus kennen lernen: Gradient Descent.

5.1 Was ist Optimierung¶

Bei einem Optimierungsproblem geht es grundsätzlich darum, eine bestimmte Größe oder Funktion von Input-Variablen entweder zu maximieren oder zu minimieren. Diese Größe heißt je nach Kontext z.B. “Zielfunktion”, “Kostenfunktion”, “Fitnessfunktion”, etc. Gemeint ist damit aber einfach immer jene Funktion, die optimiert werden soll.

Grundsätzlich kann es bei Optimierungsproblemen verschiedene Einschränkungen geben:

Die erlaubten Wertebereiche der Input-Variablen können eingeschränkt sein
Die Wertebereiche der Zielfunktion können eingeschränkt sein
Die Werte der Input-Variablen können durch eine sogenannte Nebenbedingung zusammenhängen
Der “Anspruch” der Optimierung kann eingeschränkt sein auf entweder lokale oder globale Optima, die man finden möchte.

Sehen wir uns gleich ein einfaches Beispiel an, dass zwei dieser Einschränkungen aufweist:

Finde jene beiden verschiedenen Zahlen aus der Menge der natürlichen Zahlen bis 10, die folgendes leisten:

Die Summe der beiden Zahlen muss 10 ergeben
Das Produkt der beiden Zahlen soll maximal sein

Die eine Einschränkung ist die Nebenbedingung der fixen Summe, die andere Einschränkung ist, dass wir es mit natürlichen Zahlen zu tun haben, also einer diskreten (bzw. letztlich auch endlichen) Menge von möglichen Input-Werten.

Um dieses Problem zu lösen müssten wir eigentlich gar nicht programmieren, sondern nur nachdenken. Aber ich werde trotzdem das Notebook nutzen, um das Beispiel zu illustrieren.

In [1]:

%matplotlib inline

# zunächst die Imports für diese Einheit
import numpy as np

import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

import sympy as sp

In [2]:

# gib alle natürlichen Zahlen von 1 bis 10 aus
number_array = np.arange(1,11,1)
print("Kanidaten:", number_array)

# leere Liste, wo alle Paare hineinsollen, die die Bedingungen erfüllen
pair_list = []

# nun gehen wir alle Kombinationen durch
for number_1 in number_array:
    
    for number_2 in number_array:
        
        # überprüfe die Summenvoraussetzung und die Ungleichheit
        if (number_1 + number_2 == 10) and (number_1 != number_2):
            # das ist interessant, gib die Zahlen und das Produkt aus
            print(number_1, "mal", number_2, "ist", number_1 * number_2)
            
            # hänge diese Outputs auch an die Liste an
            pair_list.append([number_1, number_2, number_1 * number_2])
        
# verwandle die Liste in ein Array
pair_array = np.array(pair_list)

# zum Schluss, finde das Maximum in der Liste
optimal_position = np.argmax(pair_array[:, -1])

optimal_solution = pair_array[optimal_position]

print("Die optimale Lösung:", optimal_solution)

Kanidaten: [ 1  2  3  4  5  6  7  8  9 10]
1 mal 9 ist 9
2 mal 8 ist 16
3 mal 7 ist 21
4 mal 6 ist 24
6 mal 4 ist 24
7 mal 3 ist 21
8 mal 2 ist 16
9 mal 1 ist 9
Die optimale Lösung: [ 4  6 24]

5.2 Varianten der Optimierung¶

Hier haben wir also gesehen, wie man, mehr oder weniger mit der Hand und eine nach der anderen, alle Möglichkeiten durchspielt und am Schluss nachsieht, welche Möglichkeit optimal ist. So eine herangehensweise nennt man oft “brute-force” approach, denn mehr als Rechengewalt haben wir nicht verwendet. Insbesondere haben wir folgendes nicht getan:

Eine Formel verwendet, um die Lösung direkt zu bestimmen
Einen iterativen Algorithmus verwendet, der von einem Startwert aus Schritt für Schritt immer bessere Lösungsvorschläge liefert
Die Werte der Input-Variablen eingeschränkt, als wir sie in die Loops geschickt haben
Aus möglichen Input-Werten per Zufallsprinzip gesampelt, um Rechenzeit zu sparen, aber gleichzeitig trotzdem einen repräsentativen Teil aller Möglichkeiten abzubilden

Diese Dinge sind natürlich grundsätzlich gute Möglichkeiten, um ein Optimierungsproblem zu vereinfachen. Machmal sind sie allerdings sogar unerlässlich, um überhaupt Fortschritte erzielen zu können. Nehmen wir dazu nocheinmal das obige Beispiel zur Hand und stellen wir uns vor, aus 10 würde eine viel größere Zahl.

Aus unserer Zeit-Komplexitäts-Analyse wissen wir noch, dass ein Programm mit zwei Loops bis $N$ zunächst einmal wie $N^2$ skalieren wird. Hier kommt dann noch etwas dazu, nämlich die Suche nach dem Maximum in der entstandenen Liste. Uns geht es hier allerdings nicht so sehr um diese Details, sondern zunächst einmal darum, dass wir (auch von den Primzahlen damals) schon wissen, dass man hier im Prinzip ganz ordentlich einsparen kann, wenn man z.B. die Loops gut einschränken kann.

Wenn wir hier z.B. den inneren Loop nur bis zu 1 unter der aktuellen Zahl im äußeren Loop laufen lassen, dann können wir sogar die Hälfte der if-Abfrage weglassen (nämlich ob die beiden Zahlen gleich sind). Somit ändern wir den Code etwas ab zu:

In [3]:

# wo liegt die Grenze?
n = 1000

number_array = np.arange(1, n+1, 1)
# print("Kanidaten:", number_array)

# leere Liste, wo alle Paare hineinsollen, die die Bedingungen erfüllen
pair_list = []

# nun gehen wir nur mehr die Hälfte aller Kombinationen durch
for number_1 in number_array:
    
    # der Zweite Loop wird jetzt früher abgebrochen
    for number_2 in number_array[:number_1-1]:
        
        # überprüfe die Summenvoraussetzung
        if (number_1 + number_2 == n):
            # das ist interessant, gib die Zahlen und das Produkt aus
            # print(number_1, "mal", number_2, "ist", number_1 * number_2)
            
            # hänge diese Outputs auch an die Liste an
            pair_list.append([number_1, number_2, number_1 * number_2])

# verwandle die Liste in ein Array
pair_array = np.array(pair_list)

# zum Schluss, finde das Maximum in der Liste
optimal_position = np.argmax(pair_array[:, -1])

optimal_solution = pair_array[optimal_position]

print("Die optimale Lösung:", optimal_solution)

Die optimale Lösung: [   501    499 249999]

5.3 Optimierung mit kontinuierlichen Variablen¶

Unsere ersten Optimierungserfahrungen in diesem Notebook haben wir also mit diskreten Variablen gemacht. Oft werden Sie allerdings mit kontinuierlichen Variablen (z.B. Koordinaten) zu tun haben. Daher wenden wir uns nun dieser Situation zu und befassen uns gleich auch noch mit einem konkreten iterativen Lösungsalgorithmus dafür.

Zunächst sehen wir uns einmal so ein Problem konkret an einem Beispiel an. Nehmen wir z.B. folgendes:

Gegeben ist die Funktion $f(x, y) = (x – 1)^2 + (y-2)^2 + 1$. Für welche $(x, y)$ ist $f$ minimal?

Dazu noch ein paar Anmerkungen:

Üblicherweise kann man für Optimierungsprobleme mit kontinuierlichen Variablen die Wertebereiche der Input-Variablen einfach als $\mathbb{R}$ annehmen (oder $\mathbb{R}$, eingeschränkt auf ein Intervall).
Man muss aufpassen, dass man zwischen lokalen und globalen Optima unterscheidet. Ein lokales Minimum kann man z.B. mit Methoden aus der Differenzialrechung finden. Das muss jedoch nicht unbedingt auch das globale Minimum sein.
Insbesondere bei der Einschränkung der Input-Werte auf Intervalle muss man von vornherein wissen, ob man (ggf. eher) nach globalen oder lokalen Optima sucht.

In unserem Beispiel suchen wir nach beidem gleichzeitig, denn die beiden sind identisch. Das können wir allerdings nur sagen, weil wir wissen, wie die Funktion in etwa aussieht. Hier ist sie z.B. einmal geplottet:

In [4]:

# definiere f
def our_function(x, y):
    # Beachte: Die Argumente können hier Arrays sein
    return (x-1)**2 + (y-2)**2 + 1

# definiere x-Werte
x_vals = np.linspace(-1, 3, 50)

# definiere y-Werte
y_vals = np.linspace(0, 4, 50)

# erzeuge x-y-Grid für 3D Plots
X, Y = np.meshgrid(x_vals, y_vals)

Z = our_function(X, Y)

# neue Grafik
fig = plt.figure()

# 3D Achsen erzeugen
ax = fig.add_subplot(1,1,1, projection='3d')

# erzeuge 3D-Oberflächenplot
ax.plot_surface(X, Y, Z, cmap="magma")

plt.show()

So sieht also die Funktion aus. Es gibt auch noch andere Arten, so etwas zu plotten, z.B. diese:

In [5]:

# neue Grafik
fig = plt.figure(figsize=(10, 5))

# 3D Achsen 1 erzeugen
ax1 = fig.add_subplot(1,2,1, projection='3d')

# erzeuge 3D-Oberflächenplot
ax1.scatter(X, Y, Z, s=0.1)

# 2D Achsen 2 erzeugen
ax2 = fig.add_subplot(1,2,2)

# erzeuge 2D-Contourplot
ax2.contour(X, Y, Z, 50, cmap='magma')

plt.show()

Grundlagen der Optimierung und Gradient Descent 40

Wie kann man nun von so einer Funktion das Minimum finden? Beim Kapitel über Vektoren und Matrizen hatten wir schon einmal so etwas ähnliches, nämlich über die lineare Regression (Zur besseren Erklärung: Dort war die Zielfunktion die Summe aller quadrierten Abstände der Beschreibung von den Datenpunkten).

Wir haben damals die exakte Lösungsformel für den Least-Squares-Fit aufgeschrieben und auch umgesetzt. Das ginge konkret auch bei dieser Form der Funktion (weil sie auch quadratisch ist), aber das geht nicht immer. Konkret muss man sogar sagen, dass sehr viele Optimierungsprobleme bisher keine Lösung in dem Sinn haben, dass kein Algorithmus bekannt ist, der das echte Optimum findet.

Nichtsdestotrotz sind viele dieser Probleme zumindest näherungsweise lösbar, und das ist meist gut genug. Wir werden uns daher hier einem Algorithmus zuwenden, der allgemein einsetzbar ist, und der zumindest näherungsweise Lösungen finden kann.

5.4 Gradient Descent¶

Beim Gradient-Descent-Algorithmus geht es darum, bei einer Minimierungsaufgabe dem Gradienten der (Hyper-)Fläche der Zielfunktion im Raum der Variablen Schritt für Schritt so zu folgen, dass man “immer bergab” geht. Stellen Sie sich vor, Sie stehen an einer riesigen Grube (z.B. einem Meteoritenkrater) und wollen an den tiefsten Punkt kommen. Dann könnten Sie folgendes tun:

Suchen Sie rund um Ihre Position herum jene Stelle, wo es am meisten bergab geht
Gibt es überhaupt eine Richtung, in der es bergab geht?
- Ja? Machen Sie einen Schritt in diese Richtung
- Nein? Sie haben ein (lokales) Minimum erreicht

Mathematisch ausgedrückt macht man bei dieser Vorgehensweise folgendes:

Wählen Sie einen Startpunkt $(x_0, y_0)$
Wählen Sie eine Schrittweite $a$
Berechnen Sie dort den Gradienten $\nabla f(x, y)|_{(x=x_0, y=y_0)}$
Berechnen Sie den nächsten Punkt, einen Schritt vom vorigen Punkt entfert, entlang des negativen Gradienten, also $$(x_1, y_1) = (x_0, y_0) – a \nabla f(x, y)|_{(x=x_0, y=y_0)}$$
Nutzen Sie jetzt $(x_1, y_1)$ als neuen Startpunkt für den nächsten Schritt und wiederholen Sie das, bis die Abbruchbedingung erfüllt ist
Abbruchbedingung: Eine vorgegebene maximale Anzahl von Schritten oder irgendwann ist $||(x_n, y_n)-(x_{n-1}, y_{n-1})||<\varepsilon$ für eine vorgegebene Genauigkeit $\varepsilon$.

Wir wollen nun diesen Algorithmus für unser obiges konkretes Beispiel durchgehen.

In [6]:

# definiere zwei Variablen x und y über SymPy
x, y = sp.symbols('x, y')

# definiere die Funktion f
f = (x-1)**2 + (y-2)**2 + 1

# Startwert 
x0 = np.array([0.5, 1.])

# übergebe an wachsendes Array für den Pfad
xy = np.array([x0])

# Schrittweite
a = 0.1

# Loop über Schritte (wir lassen hier den Genauigkeitscheck einfach mal weg)
for ind in range(100):
    
    # hole den letzten Punkt aus der Punkteliste (Pfad)
    present_point = xy[-1]
    
    # schreibe den momentanen Punkt heraus
    print(present_point)

    # berechne den Gradienten and dieser Stelle
    gradi = np.array([sp.diff(f, x).subs(x, present_point[0]).subs(y, present_point[1]),
                      sp.diff(f, y).subs(x, present_point[0]).subs(y, present_point[1])])
    
    # mache einen Gradient-Descent Schritt, also ziehe den Gradienten mal Schrittweite
    # vom derzeitigen Punkt ab
    # hänge dann das Resultat an das xy-Array an
    xy = np.append(xy, np.reshape(present_point - a * gradi, (1, 2)), axis=0)
    
    

[0.5 1. ]
[0.600000000000000 1.20000000000000]
[0.680000000000000 1.36000000000000]
[0.744000000000000 1.48800000000000]
[0.795200000000000 1.59040000000000]
[0.836160000000000 1.67232000000000]
[0.868928000000000 1.73785600000000]
[0.895142400000000 1.79028480000000]
[0.916113920000000 1.83222784000000]
[0.932891136000000 1.86578227200000]
[0.946312908800000 1.89262581760000]
[0.957050327040000 1.91410065408000]
[0.965640261632000 1.93128052326400]
[0.972512209305600 1.94502441861120]
[0.978009767444480 1.95601953488896]
[0.982407813955584 1.96481562791117]
[0.985926251164467 1.97185250232893]
[0.988741000931574 1.97748200186315]
[0.990992800745259 1.98198560149052]
[0.992794240596207 1.98558848119241]
[0.994235392476966 1.98847078495393]
[0.995388313981573 1.99077662796315]
[0.996310651185258 1.99262130237052]
[0.997048520948207 1.99409704189641]
[0.997638816758565 1.99527763351713]
[0.998111053406852 1.99622210681370]
[0.998488842725482 1.99697768545096]
[0.998791074180385 1.99758214836077]
[0.999032859344308 1.99806571868862]
[0.999226287475447 1.99845257495089]
[0.999381029980357 1.99876205996071]
[0.999504823984286 1.99900964796857]
[0.999603859187429 1.99920771837486]
[0.999683087349943 1.99936617469989]
[0.999746469879954 1.99949293975991]
[0.999797175903963 1.99959435180793]
[0.999837740723171 1.99967548144634]
[0.999870192578537 1.99974038515707]
[0.999896154062829 1.99979230812566]
[0.999916923250263 1.99983384650053]
[0.999933538600211 1.99986707720042]
[0.999946830880169 1.99989366176034]
[0.999957464704135 1.99991492940827]
[0.999965971763308 1.99993194352662]
[0.999972777410646 1.99994555482129]
[0.999978221928517 1.99995644385703]
[0.999982577542814 1.99996515508563]
[0.999986062034251 1.99997212406850]
[0.999988849627401 1.99997769925480]
[0.999991079701921 1.99998215940384]
[0.999992863761537 1.99998572752307]
[0.999994291009229 1.99998858201846]
[0.999995432807383 1.99999086561477]
[0.999996346245907 1.99999269249181]
[0.999997076996725 1.99999415399345]
[0.999997661597380 1.99999532319476]
[0.999998129277904 1.99999625855581]
[0.999998503422323 1.99999700684465]
[0.999998802737859 1.99999760547572]
[0.999999042190287 1.99999808438057]
[0.999999233752230 1.99999846750446]
[0.999999387001784 1.99999877400357]
[0.999999509601427 1.99999901920285]
[0.999999607681141 1.99999921536228]
[0.999999686144913 1.99999937228983]
[0.999999748915931 1.99999949783186]
[0.999999799132745 1.99999959826549]
[0.999999839306196 1.99999967861239]
[0.999999871444957 1.99999974288991]
[0.999999897155965 1.99999979431193]
[0.999999917724772 1.99999983544954]
[0.999999934179818 1.99999986835964]
[0.999999947343854 1.99999989468771]
[0.999999957875083 1.99999991575017]
[0.999999966300067 1.99999993260013]
[0.999999973040053 1.99999994608011]
[0.999999978432043 1.99999995686409]
[0.999999982745634 1.99999996549127]
[0.999999986196507 1.99999997239301]
[0.999999988957206 1.99999997791441]
[0.999999991165765 1.99999998233153]
[0.999999992932612 1.99999998586522]
[0.999999994346089 1.99999998869218]
[0.999999995476872 1.99999999095374]
[0.999999996381497 1.99999999276299]
[0.999999997105198 1.99999999421040]
[0.999999997684158 1.99999999536832]
[0.999999998147327 1.99999999629465]
[0.999999998517861 1.99999999703572]
[0.999999998814289 1.99999999762858]
[0.999999999051431 1.99999999810286]
[0.999999999241145 1.99999999848229]
[0.999999999392916 1.99999999878583]
[0.999999999514333 1.99999999902867]
[0.999999999611466 1.99999999922293]
[0.999999999689173 1.99999999937835]
[0.999999999751338 1.99999999950268]
[0.999999999801071 1.99999999960214]
[0.999999999840857 1.99999999968171]
[0.999999999872685 1.99999999974537]

In [7]:

# sehen wir uns das an
fig = plt.figure()

# 2D Achsen 2 erzeugen
ax = fig.add_subplot(1,1,1)

# erzeuge 3D-Oberflächenplot
ax.contour(X, Y, Z, 50, cmap='magma')

# erzeuge x und y Werte aus dem Pfad
x_vals, y_vals = np.transpose(xy)

# Plotte zusätzlich den Pfad
ax.plot(x_vals, y_vals, "rx-", markersize=10)

# Plot anzeigen
plt.show()

5.5 Übungsaufgabe: Spielen Sie mit dem Gradient-Descent-Algorithmus und dem Plot¶

Kopieren Sie nun einfach die relevanten Code-Schnipsel von oben und probieren Sie folgende Dinge aus:

Nehmen Sie eine andere Funktion $f(x, y)$ und probieren Sie aus, was passiert
Passen Sie auch die Wertebereiche für $x$ und $y$ entsprechend an, sodass Sie im Plot sehen, wo der Algorithmus hinläuft
Experimentieren Sie auch mit der Schrittgröße:
- Was passiert, wenn $a$ zu klein gewählt wird?
- Was passiert, wenn $a$ zu groß gewählt wird?
Finden Sie eine Funktion $f$, für die dieser Algorithmus nicht konvergiert?

In [8]:

# definiere eine andere Funktion g
g = sp.sin((x-1)**2 + (y-2)**2)**2

# Startwert 
x0 = np.array([0.5, 0.7])

# übergebe an wachsendes Array für den Pfad
xy = np.array([x0])

# Schrittweite
a = 0.05

# Loop über Schritte (wir lassen hier den Genauigkeitscheck einfach mal weg)
for ind in range(20):
    
    # hole den letzten Punkt aus der Punkteliste (Pfad)
    present_point = xy[-1]
    
    # schreibe den momentanen Punkt heraus
    print(present_point)

    # berechne den Gradienten and dieser Stelle
    gradi = np.array([sp.diff(g, x).subs(x, present_point[0]).subs(y, present_point[1]),
                      sp.diff(g, y).subs(x, present_point[0]).subs(y, present_point[1])])
    
    # mache einen Gradient-Descent Schritt, also ziehe den Gradienten mal Schrittweite
    # vom derzeitigen Punkt ab
    # hänge dann das Resultat an das xy-Array an
    xy = np.append(xy, np.reshape(present_point - a * gradi, (1, 2)), axis=0)
    
    

[0.5 0.7]
[0.466344453382822 0.612495578795337]
[0.415245169591515 0.479637440937938]
[0.366802144251622 0.353685575054217]
[0.362967067753874 0.343714376160073]
[0.363922628571257 0.346198834285268]
[0.363675839385038 0.345557182401098]
[0.363739067151797 0.345721574594672]
[0.363722833570249 0.345679367282647]
[0.363726999246876 0.345690198041878]
[0.363725930149461 0.345687418388598]
[0.363726204517477 0.345688131745440]
[0.363726134104344 0.345687948671293]
[0.363726152174955 0.345687995654882]
[0.363726147537365 0.345687983597150]
[0.363726148727543 0.345687986691611]
[0.363726148422099 0.345687985897458]
[0.363726148500487 0.345687986101267]
[0.363726148480370 0.345687986048962]
[0.363726148485533 0.345687986062385]

In [9]:

# passe Plotbereiche an

# definiere x-Werte
x_vals = np.linspace(0, 2, 250)

# definiere y-Werte
y_vals = np.linspace(0, 3, 250)

# erzeuge x-y-Grid für 3D Plots
X, Y = np.meshgrid(x_vals, y_vals)

# erzeuge Funktion für numerische Auswertung automatisch
# sodass sie für den Plot übereinstimmt
g_num = sp.lambdify([x, y], g)

# erzeuge Z-Werte über die lambdifizierte Funktion g
Z = g_num(X, Y)



# sehen wir uns auch das an
fig = plt.figure()

# 2D Achsen 2 erzeugen
ax = fig.add_subplot(1,1,1)

# erzeuge 3D-Oberflächenplot
ax.contour(X, Y, Z, 50, cmap='magma')

# erzeuge x und y Werte aus dem Pfad
x_vals, y_vals = np.transpose(xy)

# Plotte zusätzlich den Pfad
ax.plot(x_vals, y_vals, "rx-", markersize=10)

# Plot anzeigen
plt.show()

Grundlagen der Optimierung und Gradient Descent 42

Datenanalyse bzw. Datenauswertung

Leave a reply

Die Jupyter-Notebooks zur Lehrveranstaltung finden Sie im zugehörigen GitHub-Repository.

Datenanalyse bzw Datenauswertung

4. Datenanalyse bzw. Datenauswertung¶

In dieser Einheit werden wir uns mit den nötigsten Grundlagen der Datenanalyse bzw. Datenauswertung befassen. Das bedeutet z.B., wie man Daten einliest, was man damit (nicht) machen sollte und was man sich alles von Daten erwarten darf und was nicht.

4.1 Dateneinlesen und Selektieren mit Pandas¶

In Python gibt es eine Package, Pandas, die speziell für den einfachen Umgang mit Daten gedacht ist, die in Tabellenform abgelegt sind. Z.B. kann man aus einem Tabellenkalkulationsprogramm ein Arbeitsblatt im csv-Format speichern. CSV steht für Comma-Separated Values und ist ein oft verwendeter Standard, mit dem Sie sicher zumindest ab und zu zu tun haben sollten.

Wir werden hier nicht in die Tiefen von Pandas abtauchen (dafür reicht unsere Zeit nicht), aber ich möchte Ihnen ein paar der wichtigsten Schritte von einem CSV-File zu einem NumPy-Array zeigen. Denn was man damit alles macht, daran werden wir weiterhin arbeiten.

Zunächst die Imports für diese Einheit:

In [1]:

%matplotlib inline

# Lade die Pandas-Package
import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import os

Das zentrale Objekt in Pandas ist ein Dataframe, das im Prinzip Tabellen- bzw. auch Datenbank-Charakter hat. Sie können sich das vereinfacht so vorstellen, dass die Spalten in der Tabelle Namen haben und die Zeilen durchnummeriert sind (so wie in einer Tabellenkalkulation). Wir sehen uns das jetzt gleich einmal an einem Beispiel an.

Ich habe hier für Sie zwei Datensätze von kaggle.com bereitgestellt. Kaggle ist eine Plattform für Machine-Learning Wettbewerbe, und dadurch auch über die Zeit zu einem sehr interessanten Repository für Datensätze geworden (die Registrierung ist kostenlos, falls sich das jemand von Ihnen ansehen möchte).

Zunächst nehmen wir einen Datensatz zur Hand, der zu GeoLifeCLEF 2022 gehört. Dabei geht es darum, anhand von Bildmaterial (mit dem wir uns diesmal allerdings nicht beschäftigen werden) vorherzusagen, welche Spezies von Tieren und Pflanzen an diesem Ort leben. Die Basis dafür ist ein Satz von Trainingsdaten, in denen Beobachtungen von Spezies mit geografischer Länge und Breite gesammelt sind. Diese Liste von Beobachtungen wollen wir einlesen und ein wenig auswerten.

Quelle: https://www.kaggle.com/competitions/geolifeclef-2022-lifeclef-2022-fgvc9/data

In [2]:

# Einlesen des csv-Files in ein Pandas-Dataframe
df_all = pd.read_csv(os.path.join("data","observations_us_train.csv"), delimiter=";")

# Anzeigen der ersten paar Zeilen des Dataframe bzw. der Tabelle.
# Man sieht hier die Spalten-Titel und die Indizes der Zeilen
df_all.head()

Out[2]:

	observation_id	latitude	longitude	species_id	subset
0	20000173	33.197660	-116.180680	4911	train
1	20000175	34.037968	-118.876755	4912	train
2	20000176	27.620740	-97.222690	4913	train
3	20000177	29.155582	-95.653930	4914	train
4	20000179	36.605740	-121.959510	4915	train

In [3]:

# wir werden nun einige Zeilen aus der Tabelle nehmen, 
# und zwar durch Einschränkung auf die species_id

# zunächst definieren wir eine Liste solcher IDs
species_sample = [200, 20, 440, 57, 42, 7346]

In [4]:

# Erzeuge Figur
fig = plt.figure(figsize=(8, 10))

# Loop über Species-ID mit Position in der Liste
for ind_species, a_species in enumerate(species_sample):
        
    # hole aus dem Dataframe jene Zeilen, die die jeweilige species ID haben
    df_data_species_sample = df_all[df_all['species_id'] == a_species]

    # Erzeuge ein Array zur weiteren Verwendung in numpy
    plot_array = np.transpose(df_data_species_sample[['latitude', 'longitude']].to_numpy())

    # Erzeuge einen neuen Subplot für diese Spezies
    ax = plt.subplot(3, 2, ind_species+1)

    # Erzeuge den Plot dieser Beobachtungen bezüglich Länge und Breite
    ax.scatter(plot_array[1], plot_array[0])
    
    # Labels für die Achsen
    ax.set_xlabel("Longitude")
    ax.set_ylabel("Latitude")
    
    # noch die Spezies-ID als Titel in den Subplot
    plt.title("spezies "+str(a_species))

plt.show()

In [5]:

# Das sieht noch nicht nach allzuviel aus. Daher plotten
# wir jetzt mal alle Beobachtungen für alle Spezies auf einmal

# Erzeuge Figur
fig = plt.figure()

# Nimm alle Daten in den Spalten 'latitude', 'longitude' und mache 
# daraus ein numpy-Array
plot_array = np.transpose(df_all[['latitude', 'longitude']].to_numpy())

# Und ein Scatterplot der Daten. Die point size (s) wird klein gemacht 
# für eine schönere Auflösung/Darstellung
plt.scatter(plot_array[1], plot_array[0], s=.0001)

# Achsenbeschriftungen
plt.xlabel("Longitude")
plt.ylabel("Latitude")

# und Plot-Titel
plt.title("Alle Spezies")

plt.show()

Do6OjqdDH1yV0dHR6eToRt+HR0dnU6Gbvh1dHR0Ohm64dfR0dHpZOiGX0dHR6eT8f8BDfwGqqSLcMkAAAAASUVORK5CYII=

4.2 Datenanalyse, erste Schritte¶

Wir werden uns jetzt noch einen anderen Datensatz organisieren, um damit etwas von der üblichen Auswertung anzusehen. Es handelt sich dabei um Ort und Zeit sowie Magnitude der Erdbeben mit $M>5.5$ von 1965 bis 2016.

Quelle: https://www.kaggle.com/datasets/usgs/earthquake-database

Sehen wir uns das einfach mal an:

In [6]:

# Einlesen des csv-Files in ein Pandas-Dataframe
df_eq_all = pd.read_csv(os.path.join("data","earthquake_database.csv"), delimiter=",")

# Anzeigen der ersten paar Zeilen des Dataframe bzw. der Tabelle.
# Man sieht hier die Spalten-Titel und die Indizes der Zeilen
df_eq_all.head()

Out[6]:

	Date	Time	Latitude	Longitude	Type	Depth	Depth Error	Depth Seismic Stations	Magnitude	Magnitude Type	…	Magnitude Seismic Stations	Azimuthal Gap	Horizontal Distance	Horizontal Error	Root Mean Square	ID	Source	Location Source	Magnitude Source	Status
0	01/02/1965	13:44:18	19.246	145.616	Earthquake	131.6	NaN	NaN	6.0	MW	…	NaN	NaN	NaN	NaN	NaN	ISCGEM860706	ISCGEM	ISCGEM	ISCGEM	Automatic
1	01/04/1965	11:29:49	1.863	127.352	Earthquake	80.0	NaN	NaN	5.8	MW	…	NaN	NaN	NaN	NaN	NaN	ISCGEM860737	ISCGEM	ISCGEM	ISCGEM	Automatic
2	01/05/1965	18:05:58	-20.579	-173.972	Earthquake	20.0	NaN	NaN	6.2	MW	…	NaN	NaN	NaN	NaN	NaN	ISCGEM860762	ISCGEM	ISCGEM	ISCGEM	Automatic
3	01/08/1965	18:49:43	-59.076	-23.557	Earthquake	15.0	NaN	NaN	5.8	MW	…	NaN	NaN	NaN	NaN	NaN	ISCGEM860856	ISCGEM	ISCGEM	ISCGEM	Automatic
4	01/09/1965	13:32:50	11.938	126.427	Earthquake	15.0	NaN	NaN	5.8	MW	…	NaN	NaN	NaN	NaN	NaN	ISCGEM860890	ISCGEM	ISCGEM	ISCGEM	Automatic

5 rows × 21 columns

In [7]:

# außerdem kann man sich für ein Dataframe 
# auch ein paar Statistiken anzeigen lassen:
df_eq_all.describe()

Out[7]:

	Latitude	Longitude	Depth	Depth Error	Depth Seismic Stations	Magnitude	Magnitude Error	Magnitude Seismic Stations	Azimuthal Gap	Horizontal Distance	Horizontal Error	Root Mean Square
count	23412.000000	23412.000000	23412.000000	4461.000000	7097.000000	23412.000000	327.000000	2564.000000	7299.000000	1604.000000	1156.000000	17352.000000
mean	1.679033	39.639961	70.767911	4.993115	275.364098	5.882531	0.071820	48.944618	44.163532	3.992660	7.662759	1.022784
std	30.113183	125.511959	122.651898	4.875184	162.141631	0.423066	0.051466	62.943106	32.141486	5.377262	10.430396	0.188545
min	-77.080000	-179.997000	-1.100000	0.000000	0.000000	5.500000	0.000000	0.000000	0.000000	0.004505	0.085000	0.000000
25%	-18.653000	-76.349750	14.522500	1.800000	146.000000	5.600000	0.046000	10.000000	24.100000	0.968750	5.300000	0.900000
50%	-3.568500	103.982000	33.000000	3.500000	255.000000	5.700000	0.059000	28.000000	36.000000	2.319500	6.700000	1.000000
75%	26.190750	145.026250	54.000000	6.300000	384.000000	6.000000	0.075500	66.000000	54.000000	4.724500	8.100000	1.130000
max	86.005000	179.998000	700.000000	91.295000	934.000000	9.100000	0.410000	821.000000	360.000000	37.874000	99.000000	3.440000

Wir werden allerdings jetzt auf NumPy umsteigen und damit ein paar Dinge auseinandernehmen. Dabei erzeugen wir durch Abfrage einfach einmal ein recht großes NumPy-Array mit im Prinzip all jenen Daten, die wir verwerten wollen. Danach folgt die Analyse einzelner Spalten oder auch verschiedener möglicher Zusammenhänge.

In [8]:

# die Spalten, die uns interessieren:
column_labels = ['Date', 'Time', 'Latitude', 'Longitude', 'Depth', 'Depth Error', 
                 'Magnitude', 'Magnitude Error', 'Horizontal Error', 'Root Mean Square']

# Schränke Typ auf Erdbeben ein (es gibt nämlich auch nukleare Explosionen)
df_eq_data = df_eq_all[df_eq_all['Type'] == "Earthquake"]

# Erzeuge gesamt-Daten-Array
eq_data = df_eq_data[column_labels].to_numpy()

In [9]:

# Erzeuge Figur
fig = plt.figure()

# Nimm alle Daten in den Spalten 'latitude', 'longitude' und transponiere 
# wieder das numpy-Array fürs Plotten
plot_array = np.transpose(eq_data[:, 2:4])

# Und ein Scatterplot der Daten. Die point size (s) wird klein gemacht 
# für eine schönere Auflösung/Darstellung
plt.scatter(plot_array[1], plot_array[0], s=.001)

# Achsenbeschriftungen
plt.xlabel("Longitude")
plt.ylabel("Latitude")

# und Plot-Titel
plt.title("Alle Beben")

plt.show()

In [10]:

# Versuchen wir das nochmal, in 3D
from mpl_toolkits.mplot3d import Axes3D

# hole Daten, diesmal Länge, Breite, Tiefe
[breiten, laengen, tiefen] = np.transpose(eq_data[:, 2:5].astype(float))


fig = plt.figure()
ax = fig.add_subplot(1,1,1, projection='3d')

# Und ein Scatterplot der Daten. Die point size (s) wird klein gemacht 
# für eine schönere Auflösung/Darstellung
ax.scatter(laengen, breiten, tiefen, s=.001)

# Achsenbeschriftungen
plt.xlabel("Longitude")
plt.ylabel("Latitude")
#plt.zlabel("Depth")

# und Plot-Titel
plt.title("Alle Beben")

plt.show()

In [11]:

# und wie wäre es, diesen Plot so aussehen zu lassen, wie eine Erdkugel?

r_earth = 6370  # in km

x_values = (r_earth - tiefen*5) * np.cos(breiten/180*np.pi) * np.cos(laengen/180*np.pi)
y_values = (r_earth - tiefen*5) * np.cos(breiten/180*np.pi) * np.sin(laengen/180*np.pi)
z_values = (r_earth - tiefen*5) * np.sin(breiten/180*np.pi) 

fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')

# Und ein Scatterplot der Daten. Die point size (s) wird klein gemacht 
# für eine schönere Auflösung/Darstellung
ax.scatter(x_values, y_values, z_values, s=.001)

# und Plot-Titel
plt.title("Alle Beben, Tiefe fünffach eingezeichnet")

plt.show()

4.3 Einfache statistische Auswertung¶

Nachdem wir uns die Daten angesehen und ein Gefühl dafür entwickelt haben, möchten wir uns aber noch ein paar quantitative Eigenschaften ansehen. Z.B. wollen wir versuchen, Mittelwerte und Standardabweichungen etwas genauer unter die Lupe zu nehmen.

Die Basis dafür ist wieder NumPy, mit dem Array, das wir schon oben gebaut haben.

In [12]:

# berechne zunächst die arithmetischen Mittelwerte. 
# Zur Erinnerung: Spalten ab 2 sind numerisch, gemittelt wird über die Zeilen
np.mean(eq_data[:, 2:].astype(float), axis=0)

Out[12]:

array([ 1.38638254, 39.74604874, 71.31391348,         nan,  5.88276257,
               nan,         nan,         nan])

In [13]:

# Hier gibt es offenbar einige NaNs, d.h. "not a number". 
# NumPy hat dafür eine spezielle mean-Funktion, die NaNs auslässt
the_means = np.nanmean(eq_data[:, 2:].astype(float), axis=0)
the_means

Out[13]:

array([1.38638254e+00, 3.97460487e+01, 7.13139135e+01, 4.92132277e+00,
       5.88276257e+00, 6.61968254e-02, 6.70467570e+00, 1.02351759e+00])

In [14]:

# Machen wir das gleiche auch noch für die Standardabweichungen
the_stds = np.nanstd(eq_data[:, 2:].astype(float), axis=0)
the_stds

Out[14]:

array([2.99284158e+01, 1.25749196e+02, 1.22965738e+02, 4.68082779e+00,
       4.24022662e-01, 3.95287236e-02, 4.62738222e+00, 1.86940996e-01])

In [15]:

# jetzt können wir hübsch herausschreiben, was passiert:
# Spalten-Überschriften mit den Mittelwerten und Standardabweichungen
for an_index, a_label in enumerate(column_labels[2:]):
    print("Mittelwert für", a_label, ":", round(the_means[an_index], 3), "+-", round(the_stds[an_index], 3))

Mittelwert für Latitude : 1.386 +- 29.928
Mittelwert für Longitude : 39.746 +- 125.749
Mittelwert für Depth : 71.314 +- 122.966
Mittelwert für Depth Error : 4.921 +- 4.681
Mittelwert für Magnitude : 5.883 +- 0.424
Mittelwert für Magnitude Error : 0.066 +- 0.04
Mittelwert für Horizontal Error : 6.705 +- 4.627
Mittelwert für Root Mean Square : 1.024 +- 0.187

Hier sehen wir ein paar seltsame Dinge, z.B. große Fehlerbalken bei kleinen Mittelwerten. Das ist allerdings bei Länge und Breite kein Wunder (denn das sind ja recht beliebige Koordinaten). Bei der Tiefe ist es allerdings schon etwas interessanter. Am besten sehen wir uns die Verteilung ein paar dieser Größen im Detail an.

In [16]:

# Nimm die Tiefenwerte und erstelle ein Histogramm
depth_values = eq_data[:, 4]

plt.figure()

# Histogramm der Tiefenwerte
plt.hist(depth_values, bins=100)

# Achsenbeschriftungen
plt.xlabel("Tiefe in km")
plt.ylabel("Anzahl Beben")

# Skaliere x und/oder y Achse um
#plt.xscale("log")
plt.yscale("log")

plt.show()

In [17]:

# Nehme nun die Magnituden und erstelle ein Histogramm
mag_values = eq_data[:, 6]

# Berechne die Anzahl der Bins für das Histogramm so, dass
# jede zehntel-Magnitude ein Bin wird
num_bins = int((np.max(mag_values) - np.min(mag_values))*10)

# Ausgabe zum Mitschauen
print("num_bins: ", num_bins)

plt.figure()

# Histogramm der Magnituden
plt.hist(mag_values, bins=num_bins)

# Achsenbeschriftungen
plt.xlabel("Magnitude")
plt.ylabel("Anzahl Beben")

# Skaliere x und/oder y Achse um
#plt.xscale("log")
plt.yscale("log")

plt.show()

num_bins:  36

4.4 Etwas komplexere statistische Auswertung¶

Um noch etwas mehr Erfahrungen mit den Daten zu sammeln, wollen wir noch eins überprüfen, nämlich, ob Teile der Daten korreliert sind. Z.B. könnte man sich fragen, ob die Tiefe eines Erdbebens mit der Magnitude zusammenhängt.

Das wollen wir uns anhand des Pearson-Korrelations-Koeffizienten ansehen. Dieser ist 1, wenn eine perfekte Korrelation vorliegt, -1 bei einer Antikorrelation, und 0 bedeutet, dass es keine Korrelation gibt.

In [18]:

np.corrcoef(mag_values.astype(float), depth_values.astype(float))

Out[18]:

array([[1.        , 0.02322161],
       [0.02322161, 1.        ]])

In [19]:

# was it mit Längen und Breiten?
np.corrcoef(eq_data[:, 2].astype(float), eq_data[:, 3].astype(float))

Out[19]:

array([[1.        , 0.20267683],
       [0.20267683, 1.        ]])

4.5 Übungsaufgabe: Beben einer bestimmten Region¶

In dieser Übungsaufgabe wollen wir die Korrelation von Längen und Breiten einiger Erdbeben nochmal ansehen, und zwar eingeschränkt auf eine bestimmte Region. Machen Sie also folgendes:

Nehmen Sie aus dem Daten-Array oben die Zeilen heraus (und kopieren Sie diese in ein neues Array), wo Längen und die Breiten in folgenden Fenstern liegen:
- Länge zwischen 165 und 171 Grad
- Breite zwischen -10 und -24 Grad
Berechnen Sie für das neue Array die Mittelwerte und Standardabweichungen für Tiefe und Magnitude. Wie vergleichen diese sich mit den obigen Werten für alle Beben?
Berechnen Sie die Korrelation zwischen Länge und Breite für diesen Teil der Daten. Was können Sie feststellen?

Zusatzaufgabe (optional): Kopieren Sie die Grafische 3D-Darstellung von oben und erzeugen Sie diese für das eingeschränkte Datenset. Nehmen Sie hierbei die Magnitude zur Hand und färben Sie darüber die Punkte im Plot verschieden ein. Das geht, indem Sie ein Array von Farbcodes mit c=colorarray im scatter Befehl zusätzlich zu den Koordinaten übergeben.

In [20]:

# zur Erinnerung
column_labels = ['Date', 'Time', 'Latitude', 'Longitude', 'Depth', 'Depth Error', 
                 'Magnitude', 'Magnitude Error', 'Horizontal Error', 'Root Mean Square']

In [21]:

# erzeuge leere Listen zum Anhängen von Werten
# für Daten
restricted_data = []

# für Farben bezüglich der Magnitude
color_strings = []

# Loop über alle Daten, Spalten "Latitude" bis "Magnitude"
for a_line in eq_data[:, 2:7]:
    # Abfrage der Koordinatenbereiche
    if (165 < a_line[1] < 171) and (-10 > a_line[0] > -24):
        # hänge Zeile an die Liste der eingeschränkten Daten an
        restricted_data.append(a_line.astype(float))
        
        # setze Farbwerte für 3 Bereiche in der Magnitude
        if a_line[4] > 7.5:
            color_strings.append("r")
        elif a_line[4] > 6.5:
            color_strings.append("g")
        else:
            color_strings.append("b")

# mache aus dem Ganzen wieder ein Array
restricted_data = np.array(restricted_data)   

# übergebe das transponierte Array in die 4 interessanten Listen
[breiten, laengen, tiefen, _, magnituden] = np.transpose(restricted_data)
 
# gib die Minima und Maxima der Magnituden aus, um zu wissen, 
# wo die Gruppen von Magnituden-Werten sind
print("Max Magnitude: ", np.max(magnituden))
print("Min Magnitude: ", np.min(magnituden))   

# Mittelwerte und Standardabweichungen für reduzierte Daten
print("Tiefe:", round(np.mean(tiefen), 3), "+-", round(np.std(tiefen), 3))
print("Magnitude:", round(np.mean(magnituden), 3), "+-", round(np.std(magnituden), 3))

# gib den Korrelations
np.corrcoef(breiten, laengen)

Max Magnitude:  8.0
Min Magnitude:  5.5
Tiefe: 60.058 +- 69.44
Magnitude: 5.937 +- 0.458

Out[21]:

array([[ 1.        , -0.92042053],
       [-0.92042053,  1.        ]])

Bei der durchschnittlichen Tiefe sieht man das gleiche Muster: Dort gibt es immer noch eine große Standardabweichung im Vergleich zum Mittelwert.

Die (Anti-)Korrelation zwischen Länge und Breite ist allerdings sehr hoch. Wenn Sie sich die fragliche Region ansehen, werden Sie feststellen, dass sich dort tatsächlich eine lineare Erdbebenzone befindet.

In [22]:

# Hier noch der Erdkugelplot für die eingeschränkten Daten

# Erdradius, nochmal zur Sicherheit
r_earth = 6370  # in km

# Die Koordinaten werden neu berechnet, aus dem eingeschränkten Datenset,
# und diesmal ohne Faktor bei den Tiefen
x_values = (r_earth - tiefen) * np.cos(breiten/180*np.pi) * np.cos(laengen/180*np.pi)
y_values = (r_earth - tiefen) * np.cos(breiten/180*np.pi) * np.sin(laengen/180*np.pi)
z_values = (r_earth - tiefen) * np.sin(breiten/180*np.pi) 

# wieder die 3D-Figur
fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')

# Und ein Scatterplot der Daten. Die point size (s) machen wir
# diesmal groß, damit man die Farb-Unterschiede besser sieht
ax.scatter(x_values, y_values, z_values, s=1, c=color_strings)

# und Plot-Titel
plt.title("Eingeschränkte Beben, Tiefe realistisch")

# können Sie die roten und grünen Punkte entdecken?
plt.show()

In [ ]:

Vektoren, Matrizen und Vektorisierung in Python

Leave a reply

Die Jupyter-Notebooks zur Lehrveranstaltung finden Sie im zugehörigen GitHub-Repository.

Vektoren, Matrizen und Vektorisierung

3. Vektoren, Matrizen und Vektorisierung in Python¶

In dieser Einheit werden wir uns einerseits einige Werkzeuge für das Rechnen mit Vektoren und Matrizen in Python ansehen. Andererseits möchte ich Ihnen das Prinzip der Vektorisierung klar machen (und nahelegen).

Hier zunächst die Imports für heute:

In [24]:

%matplotlib inline
import matplotlib.pyplot as plt # für plotting, wie gewohnt
from matplotlib import image    # zum Einlesen und arbeiten mit Bilddateien

import numpy as np              # für numerische Aktionen mit Arrays, wie gewohnt

from tqdm import tqdm           # zum Erzeugen eines Fortschrittsbalkens

import os                       # Funktionen zum OS

3.1 Vektoren¶

Vektoren sind uns allen soweit bekannt (zumindest sollen sie das sein). In diesem Abschnitt geht es daher in erster Linie darum, wie Sie bestimmte gewohnte Dinge mit Vektoren tun können. Wir verwenden hier grundsätzlich die Package NumPy.

In [25]:

# Ein Vektor ist in Python im Prinzip ein 1D-Array
a_vector = np.array([2, 3, -1])

# Zwei Vektoren lassen sich recht einfach addieren und subtrahieren
another_vector = np.array([4, -2, 1])

print("Die Summe: ", a_vector + another_vector)

print("Die Differenz: ", a_vector - another_vector)

print("Das punktweise Produkt: ", a_vector * another_vector)

print("Der punktweise Quotient: ", a_vector / another_vector)

print("Punktweises Potenzieren: ", a_vector.astype(float) ** another_vector)

Die Summe:  [6 1 0]
Die Differenz:  [-2  5 -2]
Das punktweise Produkt:  [ 8 -6 -1]
Der punktweise Quotient:  [ 0.5 -1.5 -1. ]
Punktweises Potenzieren:  [16.          0.11111111 -1.        ]

Was ist aber mit dem Skalar-Produkt $\vec{a}\cdot\vec{b}$ oder dem Kreuz-Produkt $\vec{a}\times\vec{b}$? Eine Möglichkeit ist es, NumPy Funktionen dafür zu verwenden und die entsprechenden Ausdrücke zu basteln. Oder, man bedient sich fertiger Funktionen, die ebenfalls in NumPy zu finden sind.

In [26]:

# bastel-Variante für das Skalarprodukt
print(np.sum(a_vector * another_vector))

# built-in-Variante für das Skalarprodukt
print(np.dot(a_vector, another_vector))

# built-in-Variante für das Kreuzprodukt
print(np.cross(a_vector, another_vector))

1
1
[  1  -6 -16]

3.2 Matrizen und Lineare Algebra¶

Matrizen sind in Python im Prinzip 2-dimensionale Arrays. Man gibt einem NumPy-Array einen Zeilen- und einen Spalten-Index und kann damit dann verschiedene Dinge tun (das meiste davon geht natürlich auch schon in einer Dimension, ist aber in 2D anschaulicher), z.B.:

Die Matrix transponieren
Einen Teil der Matrix herausschneiden
Elemente an einer bestimmten Position verändern, hinzufügen, löschen
Matrizen miteinander (also auch mit Vektoren) multiplizieren
Eigenschaften der Matrix berechnen, wie z.B. die Determinante, den Rang, etc.
Operationen aus der Linearen Algebra ausführen, wie z.B. Eigenwerte bestimmen

Hier eine Auswahl der Dinge auf dieser Liste:

In [27]:

# definiere eine Matrix
a_matrix = np.array([[2, 3, 5, -3], [1, 3, -1, 4], [1, 2, -3, 2], [3, 4, -2, 1]])
a_matrix

Out[27]:

array([[ 2,  3,  5, -3],
       [ 1,  3, -1,  4],
       [ 1,  2, -3,  2],
       [ 3,  4, -2,  1]])

In [28]:

# verschiedene Slices/Teile
print("Erste Zeile: ", a_matrix[0, :])

print("Erste Spalte: ", a_matrix[:, 0])

print("Letzte Zeile: ", a_matrix[-1, :])

print("Letzte Spalte: ", a_matrix[:, -1])

print("Element links oben: ", a_matrix[0, 0])

print("Element an bestimmter Position: ", a_matrix[2, 3])

print("Elemente im Viereck innen: \n", a_matrix[1:3, 1:3])

print("Jedes 2. Element der 2. Zeile: ", a_matrix[1, ::2])

print("Dritte Spalte, von unten nach oben: ", a_matrix[::-1, 2])

Erste Zeile:  [ 2  3  5 -3]
Erste Spalte:  [2 1 1 3]
Letzte Zeile:  [ 3  4 -2  1]
Letzte Spalte:  [-3  4  2  1]
Element links oben:  2
Element an bestimmter Position:  2
Elemente im Viereck innen: 
 [[ 3 -1]
 [ 2 -3]]
Jedes 2. Element der 2. Zeile:  [ 1 -1]
Dritte Spalte, von unten nach oben:  [-2 -3 -1  5]

In [29]:

# transponierte Matrix
np.transpose(a_matrix)

Out[29]:

array([[ 2,  1,  1,  3],
       [ 3,  3,  2,  4],
       [ 5, -1, -3, -2],
       [-3,  4,  2,  1]])

In [30]:

# Elemente verändern
a_changed_matrix = a_matrix

a_changed_matrix[0, 1] = -4
second_row = a_changed_matrix[1]

print("Matrix geändert auf \n", a_changed_matrix)
print("Die zweite Zeile: ", second_row)

# ein Element an bestimmter Stelle in bestimmter Richtung herauslöschen
a_changed_matrix = np.delete(a_changed_matrix, 1, axis=0)

print("Zweite Zeile wurde gelöscht: \n", a_changed_matrix)

# Die gelöschte Zeile wieder einfügen
a_changed_matrix = np.insert(a_changed_matrix, 1, second_row, axis=0)

print("Zweite Zeile wieder eingefügt: \n", a_changed_matrix)

# eine Zeile anhängen
a_changed_matrix = np.append(a_changed_matrix, [second_row], axis=0)

print("Zweite Zeile nochmal angehängt: \n", a_changed_matrix)

# zwei Arrays kombinieren
a_changed_matrix = np.concatenate((a_changed_matrix, a_changed_matrix), axis=1) # versuche auch axis=0

print("Die veränderte Matrix, kombiniert mit sich selbst: \n", a_changed_matrix)

# und, wichtig: Die Dimensionen der Matrix verändern (also das Array verformen)
a_changed_matrix = np.reshape(a_changed_matrix, (2, -1))

print("zwei Zeilen und wie viele Spalten? \n", a_changed_matrix)

Matrix geändert auf 
 [[ 2 -4  5 -3]
 [ 1  3 -1  4]
 [ 1  2 -3  2]
 [ 3  4 -2  1]]
Die zweite Zeile:  [ 1  3 -1  4]
Zweite Zeile wurde gelöscht: 
 [[ 2 -4  5 -3]
 [ 1  2 -3  2]
 [ 3  4 -2  1]]
Zweite Zeile wieder eingefügt: 
 [[ 2 -4  5 -3]
 [ 1  3 -1  4]
 [ 1  2 -3  2]
 [ 3  4 -2  1]]
Zweite Zeile nochmal angehängt: 
 [[ 2 -4  5 -3]
 [ 1  3 -1  4]
 [ 1  2 -3  2]
 [ 3  4 -2  1]
 [ 1  3 -1  4]]
Die veränderte Matrix, kombiniert mit sich selbst: 
 [[ 2 -4  5 -3  2 -4  5 -3]
 [ 1  3 -1  4  1  3 -1  4]
 [ 1  2 -3  2  1  2 -3  2]
 [ 3  4 -2  1  3  4 -2  1]
 [ 1  3 -1  4  1  3 -1  4]]
zwei Zeilen und wie viele Spalten? 
 [[ 2 -4  5 -3  2 -4  5 -3  1  3 -1  4  1  3 -1  4  1  2 -3  2]
 [ 1  2 -3  2  3  4 -2  1  3  4 -2  1  1  3 -1  4  1  3 -1  4]]

In [31]:

# zwei Matrizen miteinander multiplizieren
a_matrix_squared = np.matmul(a_matrix, a_matrix)
a_matrix_squared

Out[31]:

array([[ -4, -22,   5, -15],
       [ 16,  19,  -3,  11],
       [  7,   4,   8,   1],
       [ 11,   0,  15,   4]])

In [32]:

# Ein paar Dinge aus der Linearen Algebra

print("Rang der Matrix ", np.linalg.matrix_rank(a_matrix))

print("Determinante der Matrix ", np.linalg.det(a_matrix))

print("Eigensystem der Matrix: ")
print("Eigenwerte der Matrix: ", np.linalg.eig(a_matrix)[0])
print("Eigenvektoren der Matrix: \n", np.linalg.eig(a_matrix)[1])

Rang der Matrix  4
Determinante der Matrix  126.0
Eigensystem der Matrix: 
Eigenwerte der Matrix:  [ 3.82292406+2.38876617j  3.82292406-2.38876617j -2.32292406+0.89695077j
 -2.32292406-0.89695077j]
Eigenvektoren der Matrix: 
 [[-0.71322195+0.j         -0.71322195-0.j          0.10244504-0.22757172j
   0.10244504+0.22757172j]
 [ 0.40254467+0.3848397j   0.40254467-0.3848397j   0.47509046+0.19209634j
   0.47509046-0.19209634j]
 [ 0.09504103+0.18690531j  0.09504103-0.18690531j -0.10378635+0.36880975j
  -0.10378635-0.36880975j]
 [ 0.05505865+0.36629606j  0.05505865-0.36629606j -0.7268507 +0.j
  -0.7268507 -0.j        ]]

3.3 Beispiel: Lineare Regression¶

Um auch etwas konkret Sinnvolles mit Matrizen zu machen, greifen wir kurz auf die Optimierungsmethode der linearen Regression vor. Keine Sorge, wir sehen uns das später noch im Detail an. Einstweilen hier einmal nur der letzte Schritt der Anwendung.

Zunächst aber die wichtigsten Punkte: Die Lineare Regression leistet folgendes:

Man hat einen Datensatz, bei dem es eine bis mehrere (insgesamt $N$) unabhängige Variablen $x_i$ und eine abhängige Variable $y$ gibt.
Man möchte die Daten beschreiben, und zwar mit einer Funktion $f(x_i)$.
Bei der Linearen Regression setzt man diese Funktion linear an, also $f(x_i)=\sum_{i=0}^N a_i x_i$
Nimmt man dabei $x_0=1$ an, dann hat man den konstanten Term $a_0$ im Fit mit dabei.
Nun hat man einen Datensatz von $M$ Datenvektoren $\vec{x}^{(j)}$ zur Verfügung, also $j=1,\ldots,M$
Die Koeffizienten $a_i$ bestimmt man so, dass die Summe der Quadrate der Differenzen zwischen den $y^{(j)}$ und den $f(x_i)^{(j)}$ minimal ist (least-mean-squares fit).

Das sieht auf den ersten Blick verwirrend aus, aber worum es sich hier handelt, ist im Allgemeinen ein überbestimmtes System von linearen Gleichungen. Wir werden es uns außerdem anschaulich und leicht machen und nehmen eine einzige unabhängige Variable $x_1=x$ und die Konstante über $x_0=1$ mit.

In [33]:

# generieren wir erst einmal Daten
x_values = np.linspace(0, 10, 200)
fake_data = 0.5 * x_values + np.random.normal(size=len(x_values))

fig = plt.figure()

plt.scatter(x_values, fake_data, c="r", marker="x")

plt.show()

Vektoren, Matrizen und Vektorisierung in Python 53

Hierfür sollen wir nun den besten linearen Fit finden. Dafür gibt es zwar auch iterative Algorithmen wie gradient descent, aber wir werden hier eine geschlossene Formel für die Lineare Regression verwenden.

Dabei schreibt man den Parameter-Vektor der $a_i$ als $\vec{a}$, den Vektor der Funktionswerte $y^{(j)}$ als $\vec{y}$ und schließlich die $x$ Werte als Matrix $X$. Warum als Matrix? Das kommt daher, dass es einerseits $N$ unabhängige Variablen und andererseits $M$ Datenpunkte gibt, d.h. $X=x_i^{(j)}$. Konkret ist dabei in $X$ das $i$ der Zeilen- und $j$ der Spalten-Index.

Dann lautet die Lösung für die Koeffizienten folgendermaßen: $$\vec{a}=(X^TX)^{-1}\,X^T \vec{y}$$ Und das setzen wir nun im Code um, und plotten dann die entsprechende Gerade zu den Daten dazu:

In [34]:

# Konstuiere y und X
y_vec = fake_data

# für die Matrix X werden x-Werte und Einsen "nebeneinander" geschrieben
x_mat = np.hstack((x_values.reshape((len(x_values),1)), np.ones((len(x_values),1))))

# berechne a nach der Formel. Das "@" ist eine Kurzschreibweise für Matrixmultiplikation
a_vec = np.matmul(np.linalg.pinv(np.transpose(x_mat) @ x_mat), np.transpose(x_mat) @ y_vec)

# die Lösung ist ein Vektor aus a_1 und a_0
print("Die fit-Koeffizienten: ", a_vec)

# Erzeuge die Fit-Gerade als Einsetzen der x-Werte in ein Polynom mit den Koeffizienten a_1 und a_0
reg_data = np.polyval(a_vec, x_values)

# neue Figur
fig = plt.figure()

# plotte wieder die Daten
plt.scatter(x_values, fake_data, c="r", marker="x")

# und dazu die Gerade
plt.plot(x_values, reg_data, "b", label="Linear fit")

# die Legende
plt.legend(loc=0)

plt.show()

Die fit-Koeffizienten:  [0.48495158 0.03093417]

Vektoren, Matrizen und Vektorisierung in Python 54

3.4 Höherdimensionale Arrays¶

Arrays können im Prinzip auch mehr als nur 2 Dimensionen haben. Man muss nicht unbedingt in die tiefen irgendwelcher Theorien eintauchen, um so etwas zu finden. In der Bildbearbeitung (und auch z.B. im maschinellen Lernen an Bildern) hat man mit einem 2-dimensionalen Array zu tun, das noch drei weitere “Kanäle” hat. Im Daten-Array für das Bild wird das als dritte Dimension angelegt, sodass ein Bild-Array im Allgemeinen die Dimensionen (Breite in Pixel)x(Höhe in Pixel)x3 hat.

Wir werden uns hier ein Bild hernehmen, um ein paar Tests und einfache Manipulationen auszuprobieren. Sie werden sehen, dass vieles recht einfach ist und Ihnen bereits ein gutes Gefühl für den Umgang mit höherdimensionalen Daten gibt.

In [35]:

# lade ein Bild über matplotlib-Bibliothek "image"
# os.path.join zum OS-unabhängigen aneinanderfügen von Dateipfaden
the_picture = image.imread(os.path.join('data', 'pinky.jpg'))

# schauen wir uns das Bild an
plt.figure()

# der Befehl für die Darstellung eines Bildes
plt.imshow(the_picture)

plt.show()

In [36]:

# eigentlich ist das Bild aber "nur" ein Array, wie oben beschrieben
the_picture

Out[36]:

array([[[224, 220, 208],
        [224, 220, 208],
        [224, 220, 208],
        ...,
        [206, 211, 214],
        [205, 210, 213],
        [205, 210, 213]],

       [[226, 222, 210],
        [225, 221, 209],
        [225, 221, 209],
        ...,
        [207, 212, 215],
        [207, 212, 215],
        [207, 212, 215]],

       [[227, 223, 211],
        [227, 223, 211],
        [226, 222, 210],
        ...,
        [209, 214, 217],
        [209, 214, 217],
        [209, 214, 217]],

       ...,

       [[200, 189, 187],
        [200, 189, 187],
        [200, 189, 187],
        ...,
        [159, 150, 143],
        [157, 148, 141],
        [156, 147, 140]],

       [[197, 186, 184],
        [197, 186, 184],
        [197, 186, 184],
        ...,
        [161, 154, 146],
        [155, 148, 140],
        [148, 141, 133]],

       [[194, 183, 181],
        [194, 183, 181],
        [195, 184, 182],
        ...,
        [152, 145, 137],
        [154, 147, 139],
        [152, 145, 137]]], dtype=uint8)

In [37]:

# Die Dimension des Arrays:
np.shape(the_picture)

Out[37]:

(1512, 2016, 3)

In [38]:

# Wir können diese Werte auch so normieren, dass sie zwischen 0 und 1 liegen:
the_picture_normalized = the_picture/256


# jetzt können wir mit "matshow" statt "imshow" weitermachen
plt.matshow(the_picture_normalized)

Out[38]:

<matplotlib.image.AxesImage at 0x7fa960ee6be0>

Hier kommen nun einige einfache Manipulationen und Tests, die wir mit dem Bild machen können, indem wir einfach nur das Array verändern:

Spiegelung
Schwarz-Weiß
Nur einen Farbkanal darstellen
Aufhellen
Einen Filter über das Bild laufen lassen
- Unschärfe
- Beliebiger Filter

In [39]:

# gespiegelt, rechts-links

# Slicen aller Indices der Dimension 1 in umgekehrter Reihenfolge
plt.matshow(the_picture_normalized[:,::-1,:])

plt.show()

Vektoren, Matrizen und Vektorisierung in Python 57

In [40]:

# schwarz-weiß

# Hier brauchen wir eine Definition, wie man aus 
# RGB-Werten (also den drei Farbkanälen) einen
# Grayscale-Kanal macht. Die einfachste Möglichkeit dafür
# ist ein arithmetisches Mittel:
the_picture_normalized_bw = np.mean(the_picture_normalized, axis=2)

# danach hat das Array eine Dimension verloren und sieht seltsam aus
print(np.shape(the_picture_normalized_bw))

# deshalb müssen wir spezifisch eine Colormap (cmap) angeben
# die richtige für grayscale ist "gray" (siehe unten), aber es gibt
# viele teils lustige Möglichgkeiten: Greys, spring, magma, PRGn, seismic, hsv, Set2, prism
plt.matshow(the_picture_normalized_bw, cmap="gray") 

plt.show()

(1512, 2016)

In [41]:

# Nur ein Farbkanal

# Hier suchen wir uns also einen Kanal aus, z.B. R
the_picture_normalized_one_channel = the_picture_normalized[:,:,0]

# danach hat das Array wieder eine Dimension verloren
print(np.shape(the_picture_normalized_one_channel))

# deshalb müssen wir wieder eine Colormap (cmap) angeben
# die spezifischen hier sind "Reds", "Greens" und "Blues"
plt.matshow(the_picture_normalized_one_channel, cmap="Reds") 

plt.show()

(1512, 2016)

Vektoren, Matrizen und Vektorisierung in Python 59

In [42]:

# Alle drei Farbkanäle nebeneinander
plt.figure(figsize=(10, 5))

# Definiere alle nötigen Colormaps in einer Liste
colormaps = ["Reds", "Greens", "Blues"]

# Loop über den index der drei Farbkanäle
for ind_color in range(3):
    ax = plt.subplot(1, 3, ind_color+1)
    ax.matshow(the_picture_normalized[:,:,ind_color], cmap=colormaps[ind_color]) 

plt.show()

In [43]:

# Aufhellen
plt.figure(figsize=(10, 5))

# normales Bild zum Vergleich
ax = plt.subplot(1, 2, 1)
ax.matshow(the_picture_normalized) 

# aufgehelltes Bild daneben
ax = plt.subplot(1, 2, 2)
# eine einfache Methode, Zahlen zwischen 0 und 1 größer zu machen
# ist, die Quadratwurzel zu ziehen
ax.matshow(np.sqrt(the_picture_normalized)) 

plt.show()

Vektoren, Matrizen und Vektorisierung in Python 61

In [44]:

# Einen Blur-Filter über das Bild laufen lassen
# Das braucht etwas mehr Vorbereitung

# zunächst definieren wir den Filter, eine kleine Matrix
# dieser Filter mittelt n**2 benachbarte Werte in einem nxn-Pixel Quadrat
# das ist ein simpler Filter für Unschärfe
blur_size = 7
a_filter = 1/blur_size**2 * np.ones((blur_size, blur_size))

# nun müssen wir den Filter von links oben über alle Positionen im Bild bis 
# nach rechts unten laufen lassen. Dazu verwenden wir zwei Loops über
# alle horizontalen und vertikalen Pixel und lassen zum Rand immer den 
# entsprechenden Abstand, sodass der Filter nicht über das Bild hinausragt

# bestimme die Größe des Bildes
y_dim, x_dim, _ = np.shape(the_picture_normalized)

# lege Array mit Nullen für das Resultat an
the_picture_normalized_blurred = np.zeros((y_dim, x_dim, 3))

# bestimme Abstand zum Rand
edge_dist = (blur_size - 1) // 2

# lege Schrittweite fest
the_stride = 1

# Loop über alle vertikalen Positionen "innerhalb" des Bildes
for y_index in tqdm(np.arange(edge_dist, y_dim - edge_dist, the_stride, dtype=int)):

    # Loop über alle horizontalen Positionen "innerhalb" des Bildes
    for x_index in np.arange(edge_dist, x_dim - edge_dist, the_stride, dtype=int):
        
        # Loop über alle Kanäle
        for channel_index in np.arange(3):
            
            the_picture_normalized_blurred[y_index, x_index, channel_index] = np.sum( 
             a_filter * the_picture_normalized[y_index-edge_dist:y_index+edge_dist+1, 
                                                 x_index-edge_dist:x_index+edge_dist+1, 
                                                 channel_index])
    

# Das Bild mit Unschärfe darstellen
plt.matshow(the_picture_normalized_blurred)

plt.show()

100%|██████████| 1506/1506 [01:08<00:00, 21.84it/s]

Vektoren, Matrizen und Vektorisierung in Python 62

In [45]:

# Die Unschärfe ist im Ganzen schwer zu sehen, daher hier ein Ausschnitt

# plt.matshow(the_picture_normalized[300:700,700:1150,:])        # original
plt.matshow(the_picture_normalized_blurred[300:700,700:1150,:])  # blurred

plt.show()

In [46]:

# Einen allgemeinen Filter über das Bild laufen lassen
# Das braucht etwas mehr Vorbereitung

# zunächst definieren wir den Filter, eine kleine Matrix
# dieser Filter addiert benachbarte Werte mit bestimmten Gewichten 
# in einem nxn-Pixel Quadrat
# das ist ein simpler Filter für Kanten-Erkennung
filter_size = 3
a_filter = np.array([[-1, -1, -1], [-1, 8, -1], [-1, -1, -1]])

# nun müssen wir den Filter von links oben über alle Positionen im Bild bis 
# nach rechts unten laufen lassen. Dazu verwenden wir zwei Loops über
# alle horizontalen und vertikalen Pixel und lassen zum Rand immer den 
# entsprechenden Abstand, sodass der Filter nicht über das Bild hinausragt

# bestimme die Größe des Bildes
y_dim, x_dim, _ = np.shape(the_picture_normalized)

# lege Array mit Nullen für das Resultat an
the_picture_normalized_filtered = np.zeros((y_dim, x_dim, 3))

# bestimme Abstand zum Rand
edge_dist = (filter_size - 1) // 2

# lege Schrittweite fest
the_stride = 1

# Loop über alle vertikalen Positionen "innerhalb" des Bildes
for y_index in tqdm(np.arange(edge_dist, y_dim - edge_dist, the_stride, dtype=int)):

    # Loop über alle horizontalen Positionen "innerhalb" des Bildes
    for x_index in np.arange(edge_dist, x_dim - edge_dist, the_stride, dtype=int):
        
        # Loop über alle Kanäle
        for channel_index in np.arange(3):
            
            the_picture_normalized_filtered[y_index, x_index, channel_index] = np.sum( 
             a_filter * the_picture_normalized[y_index-edge_dist:y_index+edge_dist+1, 
                                                 x_index-edge_dist:x_index+edge_dist+1, 
                                                 channel_index])
    

# Nochmal normieren, um sicher zu gehen, dass die Werte zwischen 0 und 1 bleiben
the_min = np.amin(the_picture_normalized_filtered)
the_max = np.amax(the_picture_normalized_filtered)
the_picture_normalized_filtered = (the_picture_normalized_filtered - the_min)/(the_max - the_min)


# Das gefilterte Bild darstellen
plt.matshow(the_picture_normalized_filtered)

plt.show()

100%|██████████| 1510/1510 [01:10<00:00, 21.30it/s]

Vektoren, Matrizen und Vektorisierung in Python 64

In [47]:

# Die Edge-Detection ist im Ganzen schwer zu sehen, daher hier ein Ausschnitt
# Außerdem eingeschränkt auf Kanal 2 (blau)

plt.matshow(the_picture_normalized_filtered[300:700,700:1150,2], cmap="Greys")

plt.show()

3.5 Was macht (und bringt) Vektorisierung?¶

Vektorisierung ist die Technik (und manchmal Kunst), Operationen, die man intuitiv als Loop ausführen würde, für Vektoren und Matrizen zu schreiben. Schafft man das, hat das im Allgemeinen Vorteile hinsichtlich der Geschwindigkeit. Der Vorteil endet allerdings, wenn der Speicher für die zu speichernden Arrays zu Ende geht.

Hier ein paar Beispiele.

In [48]:

# Die Anzahl der Punkte/die Dimension der Vektoren und Matrizen, mit der wir testen
n_points = 2000

# Erzeuge einen Vektor mit Zufallszahlen zwischen 0 und 1
a_random_vector = np.random.random(n_points)

In [49]:

%%time

# getimter Run: Quadriere alle Elemente im Vektor über einen Loop
a_random_vector_squared_1 = [elem**2 for elem in a_random_vector]

CPU times: user 710 µs, sys: 31 µs, total: 741 µs
Wall time: 751 µs

In [50]:

%%time

# getimter Run: Vektorisiertes elementweises Quadrat
a_random_vector_squared_2 = a_random_vector**2

CPU times: user 94 µs, sys: 51 µs, total: 145 µs
Wall time: 98 µs

In [51]:

# Erzeuge eine nxn Matrix mit Zufallszahlen zwischen 0 und 1
a_random_matrix = np.random.random((n_points, n_points))

In [52]:

%%time

# Initialisiere die Resultatmatrix
a_random_matrix_twice_1 = np.zeros((n_points, n_points))

# getimter Run: Verdopple alle Elemente der Matrix über zwei Loops
for ind_1 in range(n_points):
    for ind_2 in range(n_points):
        
        # Elementweises Setzen der Werte
        a_random_matrix_twice_1[ind_1, ind_2] = 2 * a_random_matrix[ind_1, ind_2]

CPU times: user 1.87 s, sys: 14.2 ms, total: 1.88 s
Wall time: 1.88 s

In [53]:

%%time

# getimter Run: Vektorisiertes Verdoppeln
a_random_matrix_twice_2 = 2 * a_random_matrix

CPU times: user 4.04 ms, sys: 6.68 ms, total: 10.7 ms
Wall time: 9.21 ms

In [54]:

%%time

# Hier noch etwas komplizierteres: Elementweise Abfrage

# Initialisiere die Resultatmatrix
a_random_matrix_gthalf_1 = np.zeros((n_points, n_points))

# getimter Run: Gehe über alle Elemente der Matrix über zwei Loops
for ind_1 in range(n_points):
    for ind_2 in range(n_points):
        
        # Zuerst den Wert an dieser Stelle der Matrix ausrechnen
        value_here = a_random_matrix[ind_1, ind_2]
        
        # if-Abfrage, ob der Wert größer als 0.5 ist
        if value_here > 0.5:
            
            # ja, ist größer, setze Resultat auf 1
            a_random_matrix_gthalf_1[ind_1, ind_2] = 1.
            
        else:
            # nein, ist kleiner, setze Resultat auf 0
            a_random_matrix_gthalf_1[ind_1, ind_2] = 0.

CPU times: user 1.39 s, sys: 11.8 ms, total: 1.4 s
Wall time: 1.4 s

In [55]:

%%time

# getimter Run: Vektorisierte if-Abfrage
# np.where(Bedingung, Resultat bei True, Resultat bei False)
a_random_matrix_gthalf_2 = np.where(a_random_matrix > 0.5 * np.ones((n_points, n_points)), 
                                    np.ones((n_points, n_points)), 
                                    np.zeros((n_points, n_points))
                                   )

CPU times: user 15 ms, sys: 22 ms, total: 37 ms
Wall time: 45.3 ms

In [56]:

# hier noch der Vergleich, ob die beiden Resultate auch gleich sind
# dazu summieren wir alle Stellen, wo es ungleich ist (also eine Eins/True steht)
# Die Summe ist also die Anzahl der falschen Vergleich-Elemente
np.sum(a_random_matrix_gthalf_1 != a_random_matrix_gthalf_2)

Out[56]:

Wichtig beim Umgang mit Arrays ist auch das Konzept der axis bei einer NumPy-Operation. Zum Beispiel können Sie die Summe aus einem Array komplett berechnen, aber auch nur entlang einer bestimmten Richtung (axis). Diese Vorgehensweise funktioniert bei den meisten Befehlen, die auf Arrays angewendet werden.

Hier auch dazu ein paar Beispiele:

In [57]:

# Nochmal die Matrix von oben:
a_matrix = np.array([[2, 3, 5, -3], [1, 3, -1, 4], [1, 2, -3, 2], [3, 4, -2, 1]])
a_matrix

Out[57]:

array([[ 2,  3,  5, -3],
       [ 1,  3, -1,  4],
       [ 1,  2, -3,  2],
       [ 3,  4, -2,  1]])

In [58]:

# Hier drei Summen: zunächst über alle Elemente
print(np.sum(a_matrix))

# Dann entlang der beiden Achsen separat
# Dabei entsteht ein Vektor mit den Summen entlang, z.B. der Zeilen
print(np.sum(a_matrix, axis=0))

# oder der Spalten
print(np.sum(a_matrix, axis=1))

# Dabei sollten die Summen auch zusammenpassen:
print(np.sum(np.sum(a_matrix, axis=1)))
print(np.sum(np.sum(a_matrix, axis=0)))

22
[ 7 12 -1  4]
[7 7 2 6]
22
22

In [59]:

# Erhöhen wir nun die Dimension ein bisschen
cubicle = np.concatenate((np.expand_dims(a_matrix, axis=0), np.expand_dims(np.transpose(a_matrix), axis=0)))
cubicle

Out[59]:

array([[[ 2,  3,  5, -3],
        [ 1,  3, -1,  4],
        [ 1,  2, -3,  2],
        [ 3,  4, -2,  1]],

       [[ 2,  1,  1,  3],
        [ 3,  3,  2,  4],
        [ 5, -1, -3, -2],
        [-3,  4,  2,  1]]])

In [60]:

# Hier kann man jetzt z.B. über zwei von drei Dimensionen summieren
# dazu muss man dem _axis_-Argument auch ein Tupel übergeben:
np.sum(cubicle, axis=(0, 2))

Out[60]:

array([14, 19,  1, 10])

3.6 Übungsaufgabe: Bildanalyse und einfache -manipulation¶

In dieser Aufgabe verwenden Sie bitte das Bild quadrate.png von der Moodle-Seite des Kurses. Die folgenden Aufgaben können Sie mit Hilfe der Befehle aus dieser Einheit gut erledigen:

Laden Sie das Bild in ein NumPy-Array. Hinweis: ein png hat 4 Kanäle: R, G, B, alpha. Den alpha-Kanal können Sie gleich nach dem Laden entfernen.
Zählen Sie die roten Quadrate (mit Python, nicht mit der Hand 🙂 ). Hinweis: Jedes Quadrat ist genau 81 Pixel groß.
Kopieren Sie das Array und färben Sie in der Kopie die roten Quadrate auf blau um

Zusatzaufgabe (optional): Bestimmen Sie die Mittelpunkte der Quadrate als Paare $i_y,i_x$ von Pixelpositionen des jeweiligen Quadrat-Mittelpunkts im Bild und geben Sie die Liste im Notebook aus.

In [61]:

# lade ein Bild über matplotlib-Bibliothek "image"
q_picture = image.imread(os.path.join('data', 'quadrate.png'))

# reduziere die 4 Kanäle aus dem png auf die üblichen 3
q_picture = q_picture[:,:,:-1]

# das Bild über matshow darstellen
plt.matshow(q_picture)

plt.show()

Vektoren, Matrizen und Vektorisierung in Python 66

In [62]:

# Die Lösung für die Aufgabe des Zählens der Quadrate kann man verschieden angehen
# die Basis dafür ist, die roten Pixel im Bild zu zählen und deren
# Anzahl dann durch 81 zu dividieren (die Größe eines Quadrats)

# um zwischen roten und weißen Pixeln zu unterscheiden, ist es wichtig, zu
# verstehen, dass weiße Pixel im bild die Kanalwerte (1,1,1) haben und
# einfärbige z.B. den Wert (1,0,0) 
# Wenn Sie also die Summe über die Pixel innerhalb eines Kanals nehmen,
# dann bekommen Sie die Summe aller Einsen. 
# in unserem Fall muss z.B. die Summer der Einsen im roten Kanal genau die 
# Gesamtzahl der Bildpixel ergeben.
# Die Summe der Einsen im grünen Kanal dagegen sollte um die Anzahl aller roten
# Bildpunkte geringer sein (weil dort im Kanal G eine Null statt einer Eins steht)

# Daher ist die Folgende Summe interessant: Über alle Dimensionen des Bildes, außer dem Kanal
channel_sums = np.sum(q_picture, axis=(0,1), dtype=int)
channel_sums

Out[62]:

array([2073600, 2071575, 2071575])

In [63]:

# damit erhalten wir nun die Lösung auf die Frage, wie viele rote Quadrate 
# es im Bild gibt, über den Folgenden Ausdruck: (Anzahl rot minus Anzahl grün)/81
(channel_sums[0] - channel_sums[1]) / 81

Out[63]:

25.0

In [64]:

# nun bleibt noch die zweite Aufgabe, nämlich die roten Punkte blau zu machen
# wir wissen bereits, dass bei roten Punkten die folgenden 
# Kanalwerte vorliegen: (1,0,0)
# Bei einem blauen Punkt hat man hingegen (0,0,1)
# Hier handelt es sich um eine zyklische Permutation, d.h. die Eins
# wird einfach zyklisch durchgetauscht.
# Da bei weißen Punkten (1,1,1) zyklische Vertauschungen keine Veränderung
# hervorrufen, kann man eine zyklische Vertauschung der kompletten
# Kanal-Ebenen im Bild verwenden, um die Farbe von rot auf blau zu ändern
# numpy hat für zyklische Vertauschungen in einem Array den Befehl np.roll bereitgestellt

# tausche die channels zyklisch, und zwar zu grün und blau, der Vollständigkeit halber
# Achten Sie auf axis=2, wodurch die Vertauschung auf die Kanaldimension beschränkt wird
green_q = np.roll(q_picture, 1, axis=2)
blue_q = np.roll(q_picture, 2, axis=2)

# jetzt plotten wir noch beide umgefärbten Bilder nebeneinander
fig = plt.figure(figsize=(10,5))

# die grünen Quadrate
ax = plt.subplot(1, 2, 1)
ax.matshow(green_q) 

# und die blauen Quadrate
ax = plt.subplot(1, 2, 2)
ax.matshow(blue_q) 


plt.show()

Vektoren, Matrizen und Vektorisierung in Python 67

In [65]:

# nun zur Zusatzaufgabe: wir möchten die Positionen der 
# Quadrate herauslesen. Dazu können wir im Prinzip das Filter-Prinzip und
# Teile des Codes von oben verwenden.
# Wir lassen einen Summenfilter der Größe 9x9 über z.B. den grünen Kanal laufen 
# und überall, wo er Null ergibt, entspricht die Filterposition dem Mittelpunkt des Quadrats

# den Filter brauchen wir hier nicht extra zu definieren, denn
# wir summieren einfach die Positionen im Farbkanal auf.
# Wir behalten aber das praktische Prinzip der Filtergröße bei
filter_size = 9


# wir müssen den Filter wieder von links oben über alle Positionen im Bild bis 
# nach rechts unten laufen lassen. Dazu verwenden wir zwei Loops über
# alle horizontalen und vertikalen Pixel und lassen zum Rand immer den 
# entsprechenden Abstand, sodass der Filter nicht über das Bild hinausragt

# bestimme die Größe des Bildes
y_dim, x_dim, _ = np.shape(q_picture)

# bestimme Abstand zum Rand
edge_dist = (filter_size - 1) // 2

# lege Schrittweite fest
the_stride = 1

# lege Liste für Positionen an
position_list = []

# Loop über alle vertikalen Positionen "innerhalb" des Bildes
for y_index in tqdm(np.arange(edge_dist, y_dim - edge_dist, the_stride, dtype=int)):

    # Loop über alle horizontalen Positionen "innerhalb" des Bildes
    for x_index in np.arange(edge_dist, x_dim - edge_dist, the_stride, dtype=int):
        
        # aus dem Loop über alle Kanäle wird die Einschränkung auf den grünen (1)
        # wir wollen diesmal allerdings kein neues Bild erzeugen, sondern nur
        # die Summe checken
        this_sum = np.sum(q_picture[y_index-edge_dist:y_index+edge_dist+1, 
                                    x_index-edge_dist:x_index+edge_dist+1, 
                                    1])
        # checke, ob die Summe 0 ist
        if this_sum == 0:
            # ja, hänge die Position an die Liste an
            position_list.append([y_index, x_index])

# Hier die fertige Liste
print("Liste der Positionen: ", position_list)

# Checke die Länge der Liste (sollte 25 sein)
print("Länge dieser Liste: ", len(position_list))

100%|██████████| 1072/1072 [00:14<00:00, 73.15it/s]

Liste der Positionen:  [[5, 60], [16, 511], [27, 1534], [38, 1677], [60, 731], [170, 1006], [192, 698], [203, 1083], [280, 1028], [346, 456], [445, 1116], [467, 929], [478, 687], [500, 1699], [544, 445], [643, 1589], [654, 588], [698, 5], [720, 280], [797, 1578], [841, 401], [874, 324], [907, 918], [918, 764], [1072, 1523]]
Länge dieser Liste:  25

In [ ]: