Kapitel 1

Lernen & Machine Learning

In diesem Kapitel geht es um die Frage, wie Maschinen überhaupt lernen können. Wir betrachten Daten, Modelle, Fehler, Training und die wichtigsten Arten des maschinellen Lernens. Dieses Kapitel ist das Fundament für alles, was danach kommt: Neuron, Perzeptron, MLP, Backpropagation, CNNs, Transformer und LLMs.

Inhaltsverzeichnis

1.1 Was bedeutet Lernen?1.2 Daten und Datensätze 1.3 Features und Labels 1.4 Modelle als Funktionen 1.5 Training und Fehler 1.6 Supervised Learning 1.7 Unsupervised Learning 1.8 Reinforcement Learning 1.9 Overfitting und Underfitting 1.10 Die Mathematik dahinter

1.1 Was bedeutet Lernen?

Lernen bedeutet, dass ein System sein Verhalten durch Erfahrung verbessert. Beim Menschen geschieht das durch Wahrnehmung, Erinnerung, Feedback, Fehler und Korrektur. Ein Kind lernt laufen, indem es immer wieder versucht aufzustehen, hinfällt, korrigiert und erneut probiert.

Beim maschinellen Lernen ist die Idee ähnlich, aber die Umsetzung ist mathematisch. Ein Modell sieht Beispiele, berechnet eine Ausgabe, vergleicht diese Ausgabe mit einem Ziel oder einer Bewertung und verändert anschließend seine inneren Werte.

Erfahrung beim Menschen:
Versuch → Fehler → Korrektur → Verbesserung

Lernen bei Maschinen:
Daten → Vorhersage → Fehler → Parameter-Update

Wichtig ist: Ein lernendes System soll nicht einfach alte Beispiele speichern. Es soll aus Beispielen ein Muster ableiten, das auch bei neuen Situationen funktioniert. Diese Fähigkeit nennt man Generalisierung.

1.2 Daten und Datensätze

Maschinen lernen aus Daten. Daten sind Beispiele aus der Welt, die in eine Form gebracht werden, mit der ein Computer rechnen kann. Ein Bild ist für uns ein Bild. Für einen Computer ist es eine große Matrix aus Zahlen. Ein Text ist für uns Sprache. Für ein Modell wird er später in Tokens und Zahlen umgewandelt.

Ein einzelnes Beispiel nennt man oft Sample oder Beobachtung. Viele Beispiele zusammen nennt man Datensatz. Ein Datensatz kann aus Bildern, Texten, Tabellen, Audiodaten, Sensordaten oder Kombinationen davon bestehen.

Sample 1: Bild einer Katze
Sample 2: Bild eines Hundes
Sample 3: Bild eines Autos
...
Datensatz = viele Samples

Die Qualität der Daten ist entscheidend. Ein Modell kann nur aus dem lernen, was in den Daten enthalten ist. Wenn die Daten falsch, einseitig, unvollständig oder verzerrt sind, wird auch das Modell falsche oder verzerrte Muster lernen.

Schlechte Daten führen nicht zu guter KI. Selbst das beste Modell kann aus schlechten Trainingsdaten keine zuverlässige Weltkenntnis erzeugen.

1.3 Features und Labels

Ein Feature ist eine Eigenschaft eines Beispiels, die ein Modell als Eingabe bekommt. Wenn wir ein Hauspreis-Modell bauen, könnten Features zum Beispiel Wohnfläche, Lage, Baujahr, Anzahl der Zimmer und Entfernung zur nächsten Bahnstation sein.

x = [Wohnfläche, Zimmer, Baujahr, Entfernung]
x = [82, 3, 1998, 0.7]

Mathematisch werden Features häufig als Vektor geschrieben. Ein Vektor ist einfach eine geordnete Liste von Zahlen. Genau diese Denkweise brauchen wir später beim künstlichen Neuron.

x = [x₁, x₂, x₃, ..., xₙ]

Ein Label ist die gewünschte Antwort. Beim Hauspreis-Beispiel wäre das Label der tatsächliche Verkaufspreis. Beim Spamfilter wäre das Label „Spam“ oder „Kein Spam“. Beim Katzenbild wäre das Label „Katze“.

Trainingsbeispiel = (x, y)

x ist die Eingabe. y ist die richtige Antwort. Diese Schreibweise ist extrem wichtig, weil sie später überall wieder auftaucht: beim Perzeptron, beim MLP, bei CNNs und auch beim Training großer Sprachmodelle.

1.4 Modelle als Funktionen

Ein Modell ist eine mathematische Funktion. Es bekommt Eingaben und erzeugt eine Ausgabe. In der einfachsten Form kann man schreiben:

f(x) = ŷ

f ist das Modell. x ist die Eingabe. ŷ ist die Vorhersage des Modells. Das Dach über dem y bedeutet: Das ist nicht die echte Antwort, sondern nur die geschätzte Antwort.

Die echte Antwort nennen wir y. Der Unterschied zwischen y und ŷ ist der Fehler. Wenn ein Modell lernt, versucht es, diesen Fehler kleiner zu machen.

x = Eingabe
y = echte Antwort
ŷ = Vorhersage
Fehler = Unterschied zwischen y und ŷ

Modelle besitzen Parameter. Parameter sind innere Werte, die beim Training verändert werden. Bei neuronalen Netzen heißen diese Werte meistens Gewichte und Bias-Werte.

ŷ = f(x; θ)

θ steht hier für die Parameter des Modells. Lernen bedeutet also: Wir suchen Parameter θ, bei denen die Vorhersagen des Modells möglichst gut werden.

1.5 Training und Fehler

Training ist der Prozess, bei dem ein Modell seine Parameter anpasst. Am Anfang sind die Parameter oft zufällig oder schlecht gewählt. Das Modell macht daher schlechte Vorhersagen. Durch viele Beispiele wird der Fehler gemessen und das Modell schrittweise verbessert.

1. Eingabe x ansehen
2. Vorhersage ŷ berechnen
3. Mit echter Antwort y vergleichen
4. Fehler berechnen
5. Parameter anpassen
6. Wiederholen

Bei einfachen Modellen kann der Fehler zum Beispiel so aussehen:

Fehler = y - ŷ

In vielen echten ML-Systemen verwendet man nicht einfach diesen Unterschied, sondern eine Loss-Funktion. Eine Loss-Funktion misst, wie schlecht ein Modell auf einem Beispiel oder einem ganzen Datensatz ist.

L(y, ŷ) = Fehlermaß

Das Ziel des Trainings ist dann:

min L

Wir wollen also die Parameter so verändern, dass der Loss möglichst klein wird. Diese Idee nennt man Optimierung.

1.6 Supervised Learning

Supervised Learning bedeutet überwachtes Lernen. Das Modell lernt mit Beispielen, bei denen die richtige Antwort bekannt ist. Es bekommt also Eingaben x und Labels y.

D = {(x₁, y₁), (x₂, y₂), ..., (xₙ, yₙ)}

D ist der Datensatz. Jedes Beispiel besteht aus einer Eingabe und einer richtigen Antwort. Das Modell versucht, eine Funktion zu lernen, die aus x möglichst zuverlässig y vorhersagt.

E-Mail → Spam / Kein Spam
Bild → Katze / Hund
Patientendaten → Risiko niedrig / hoch
Hausdaten → Preis

Supervised Learning kann in zwei große Gruppen aufgeteilt werden: Klassifikation und Regression.

Klassifikation

Das Modell wählt eine Kategorie. Beispiel: Katze oder Hund, Spam oder kein Spam.

Regression

Das Modell sagt eine Zahl voraus. Beispiel: Hauspreis, Temperatur oder Umsatz.

Das Perzeptron, das wir später bauen, ist ein einfaches Beispiel für Supervised Learning. Es bekommt Eingaben und gewünschte Ausgaben und passt seine Gewichte an, wenn es falsch liegt.

1.7 Unsupervised Learning

Unsupervised Learning bedeutet unüberwachtes Lernen. Hier gibt es keine Labels. Das Modell bekommt nur Daten und soll selbst Strukturen finden.

Stell dir vor, ein Streamingdienst kennt dein Hörverhalten, aber niemand hat vorher jeden Nutzer mit Labels wie „Rock-Fan“, „Jazz-Fan“ oder „Podcast-Hörer“ markiert. Trotzdem kann das System Gruppen von Nutzern finden, die sich ähnlich verhalten.

Daten ohne Labels
↓
Ähnlichkeiten finden
↓
Gruppen / Muster / Strukturen

Ein typisches Beispiel ist Clustering. Dabei versucht ein Algorithmus, ähnliche Datenpunkte zu Gruppen zusammenzufassen.

ähnliche Punkte → gleiche Gruppe

Unsupervised Learning ist besonders nützlich, wenn Labels teuer, unvollständig oder gar nicht vorhanden sind. Es hilft, Daten besser zu verstehen, bevor man ein überwachtes Modell trainiert.

1.8 Reinforcement Learning

Reinforcement Learning bedeutet Lernen durch Belohnung und Bestrafung. Hier lernt ein Agent durch Interaktion mit einer Umgebung. Er führt Aktionen aus, erhält Feedback und versucht, seine Strategie zu verbessern.

Zustand s
↓
Aktion a
↓
Belohnung r
↓
neuer Zustand s'

Ein Roboter könnte eine Belohnung bekommen, wenn er sich seinem Ziel nähert, und eine Strafe, wenn er gegen eine Wand fährt. Ein Spiel-Agent bekommt Punkte, wenn er gewinnt, und verliert Punkte bei schlechten Aktionen.

Ziel: maximale zukünftige Belohnung

Reinforcement Learning ist besonders wichtig für Spiele, Robotik, Steuerungsprobleme und Systeme, bei denen Entscheidungen über mehrere Schritte hinweg bewertet werden müssen.

1.9 Overfitting und Underfitting

Ein Modell soll nicht nur auf Trainingsdaten gut sein, sondern auch auf neuen Daten. Genau hier entstehen zwei wichtige Probleme: Overfitting und Underfitting.

Overfitting bedeutet, dass ein Modell die Trainingsdaten zu stark auswendig lernt. Es ist im Training sehr gut, aber bei neuen Daten schlecht.

Beispiel: Ein Schüler lernt nur alte Prüfungsfragen auswendig. In der Übung ist er perfekt. In einer neuen Klausur scheitert er.

Overfitting:
Trainingsfehler niedrig
Testfehler hoch

Underfitting ist das Gegenteil. Das Modell ist zu einfach oder wurde zu schlecht trainiert. Es erkennt selbst in den Trainingsdaten kaum Muster.

Underfitting:
Trainingsfehler hoch
Testfehler hoch

Ein gutes Modell findet die Mitte: Es lernt echte Muster, aber nicht bloß die Trainingsdaten auswendig.

1.10 Die Mathematik dahinter

Sehr viele Machine-Learning-Verfahren lassen sich als Optimierungsproblem beschreiben. Wir haben ein Modell mit Parametern θ. Dieses Modell macht Vorhersagen. Eine Loss-Funktion misst, wie schlecht diese Vorhersagen sind. Training bedeutet, θ so zu verändern, dass der Loss kleiner wird.

ŷ = f(x; θ)

L(y, ŷ) = Fehlermaß

θ* = argmin L

Das sieht kompliziert aus, bedeutet aber einfach: Wir suchen die besten Parameter θ*, bei denen der Fehler möglichst klein ist.

Später lernen wir Gradient Descent kennen. Dort wird berechnet, in welche Richtung die Parameter verändert werden müssen, damit der Loss kleiner wird. Bei neuronalen Netzen passiert genau das mit Gewichten und Bias-Werten.

Parameter ändern
↓
Loss prüfen
↓
bessere Richtung finden
↓
wiederholen

Zusammenfassung

✓ Lernen bedeutet Verbesserung durch Erfahrung.
✓ Machine Learning lernt aus Daten.
✓ Features sind Eingaben, Labels sind Zielwerte.
✓ Modelle sind Funktionen mit Parametern.
✓ Training minimiert Fehler.
✓ Supervised Learning nutzt Labels.
✓ Unsupervised Learning sucht Strukturen ohne Labels.
✓ Reinforcement Learning lernt durch Belohnung.
✓ Overfitting bedeutet Auswendiglernen statt Generalisieren.

← Zurück zu Kapitel 0 Weiter zu Kapitel 2: Neuron →