Machine Learning: 12 Grundlagen erklärt

Stell dir vor, du gibst einem Computer nicht explizit vor, was er tun soll, sondern ermöglichst ihm, aus Erfahrungen zu lernen. Genau das ist die Magie des maschinellen Lernens, kurz ML. Diese revolutionäre Technologie durchdringt mittlerweile nahezu jeden Aspekt unseres digitalen Lebens, von personalisierten Empfehlungen auf Streaming-Plattformen bis hin zu komplexen Diagnosesystemen in der Medizin. Es ist keine ferne Zukunftsmusik mehr, sondern eine prägende Kraft der Gegenwart, die die Art und Weise, wie wir mit Technologie interagieren, grundlegend verändert. Das Verständnis der Kernkonzepte des maschinellen Lernens ist daher nicht nur für angehende Datenwissenschaftler unerlässlich, sondern auch für jeden, der die digitale Welt um uns herum verstehen möchte. In diesem Artikel tauchen wir tief in die 12 wichtigsten Grundlagen des maschinellen Lernens ein und entschlüsseln die faszinierenden Mechanismen, die hinter dieser transformativen Kraft stecken.

Wir werden uns auf die fundamentalen Prinzipien konzentrieren, die es ermöglichen, dass Maschinen lernen, Vorhersagen treffen und Muster erkennen können, ohne dass jede einzelne Regel explizit programmiert werden muss. Dieser Artikel richtet sich an ein breites Publikum, von neugierigen Einsteigern, die gerade erst die ersten Schritte in diese spannende Welt wagen, bis hin zu fortgeschrittenen Nutzern, die ihr Wissen vertiefen und neue Perspektiven gewinnen möchten. Mach dich bereit, die Grundbausteine des maschinellen Lernens zu entdecken, die die digitale Landschaft von morgen gestalten.

1. Was ist maschinelles Lernen überhaupt?

Maschinelles Lernen ist ein Teilgebiet der künstlichen Intelligenz, das sich damit beschäftigt, Computern die Fähigkeit zu verleihen, aus Daten zu lernen, ohne explizit programmiert zu werden. Anstatt einem Algorithmus eine feste Reihe von Regeln zu geben, werden ihm große Mengen an Daten präsentiert, aus denen er selbständig Muster, Zusammenhänge und Regeln ableitet. Dieses „Lernen“ ermöglicht es dem System, seine Leistung bei einer bestimmten Aufgabe im Laufe der Zeit zu verbessern, je mehr Daten es verarbeitet. Ein klassisches ist das Erkennen von Spam-E-Mails: Anstatt jede einzelne Spam-Regel zu definieren, lernt ein ML-Modell anhand von Tausenden von Beispielen, welche Merkmale typisch für unerwünschte Nachrichten sind.

Der Kern des maschinellen Lernens liegt in der Fähigkeit zur Generalisierung. Das bedeutet, dass ein gut trainiertes Modell nicht nur die Daten versteht, auf denen es trainiert wurde, sondern auch in der Lage ist, korrekte Vorhersagen oder Entscheidungen für neue, unbekannte Daten zu treffen. Diese Fähigkeit ist entscheidend für die praktische Anwendung von ML in der realen Welt, wo wir selten mit exakt den gleichen Daten konfrontiert werden, die wir für das Training verwendet haben. Es ist ein fortlaufender Prozess der Anpassung und Verbesserung, der dem System ermöglicht, sich an veränderte Bedingungen anzupassen und seine Effektivität zu steigern.

Der Unterschied zur traditionellen Programmierung

Die traditionelle Programmierung basiert auf expliziten Anweisungen. Der Entwickler schreibt Code, der dem Computer Schritt für Schritt sagt, was er tun soll. Wenn sich die Anforderungen ändern, muss der Code manuell angepasst werden. Beim maschinellen Lernen hingegen werden dem Computer Trainingsdaten und ein Lernalgorithmus zur Verfügung gestellt, und der Computer „entwickelt“ seine eigene Logik, um die gestellte Aufgabe zu lösen. Betrachten wir die Bilderkennung: In der traditionellen Programmierung müsste man detailliert beschreiben, was ein Katzenbild ausmacht – jede Form, Farbe und Textur. Im maschinellen Lernen zeigt man dem Modell einfach viele Bilder von Katzen und Nicht-Katzen, und es lernt selbstständig, was eine Katze definiert.

Diese Paradigmenverschiebung ist revolutionär. Sie ermöglicht die Lösung von Problemen, die für die traditionelle Programmierung zu komplex oder zu dynamisch wären. Denken wir an die Vorhersage von Aktienkursen oder die Erkennung von komplexen Krankheitsbildern aus medizinischen Scans. Diese Bereiche sind von so vielen variablen Faktoren beeinflusst, dass eine explizite Programmierung aller Eventualitäten praktisch unmöglich ist. Maschinelles Lernen bietet einen gangbaren Weg, indem es die Muster und Korrelationen in riesigen Datenmengen aufdeckt, die für den Menschen nicht offensichtlich wären.

Anwendungsbereiche von ML

Die Anwendungsbereiche des maschinellen Lernens sind schier endlos und wachsen stetig. In der personalisierten Technologie sind Empfehlungssysteme, wie sie von großen Online-Shops oder Streaming-Diensten genutzt werden, ein Paradebeispiel. Sie analysieren das bisherige Nutzerverhalten, um Vorschläge für Produkte oder Filme zu machen, die mit hoher Wahrscheinlichkeit gefallen werden. In der Medizin revolutioniert ML die Diagnostik, indem es hilft, Krankheiten auf Basis von Bilddaten oder Patientenhistorien frühzeitig zu erkennen. Auch im Bereich der autonomen Fahrzeuge spielt ML eine zentrale Rolle, indem es die Erkennung von Objekten, die Navigation und die Entscheidungsfindung in Echtzeit ermöglicht.

Darüber hinaus findet maschinelles Lernen Anwendung in der Finanzwelt für die Betrugserkennung und Risikobewertung, in der Landwirtschaft zur Optimierung von Ernteerträgen durch Datenanalyse von Wetter und Bodenbeschaffenheit, und in der Forschung zur Entdeckung neuer Materialien oder Medikamente. Selbst in alltäglichen Apps, die wir täglich nutzen, wie Spracherkennung oder Übersetzungsdienste, steckt hochentwickeltes maschinelles Lernen. Die Fähigkeit, aus Daten zu lernen und sich anzupassen, macht ML zu einem mächtigen Werkzeug, das fast jede Branche transformiert und die Effizienz und Genauigkeit von Prozessen erheblich steigert. Weitere Einblicke in die Vielfalt der Anwendungen finden sich beispielsweise in Übersichten über KI-Anwendungsfälle.

2. Datentypen und Datenvorbereitung

Bevor ein maschinelles Lernmodell überhaupt lernen kann, benötigt es Daten. Aber nicht irgendwelche Daten, sondern gut aufbereitete und relevante Daten. Die Art der Daten, die wir verwenden, bestimmt maßgeblich die Art des ML-Problems, das wir lösen können, und die Qualität der Ergebnisse. Grundsätzlich unterscheiden wir zwischen strukturierten Daten, wie sie in Tabellen oder Datenbanken vorkommen (z. B. Kundeninformationen mit Spalten wie , Alter, Kaufhistorie), und unstrukturierten Daten, wie Texten, Bildern, Audio- oder Videodateien. Jede Art von Daten erfordert spezifische Vorbereitungsschritte.

Die Datenvorbereitung, auch Feature Engineering genannt, ist oft der zeitaufwändigste, aber auch einer der wichtigsten Schritte im ML-Prozess. Schlechte Daten führen unweigerlich zu schlechten Modellen, unabhängig davon, wie fortschrittlich der verwendete Algorithmus ist. Dieser Prozess umfasst das Sammeln, Bereinigen, Transformieren und Auswählen von relevanten Datenmerkmalen (Features), die dem Modell helfen, Muster zu erkennen und Vorhersagen zu treffen. Ohne sorgfältige Datenvorbereitung kann selbst das ausgeklügelteste Modell seine volle Leistungsfähigkeit nicht entfalten.

Strukturierte vs. unstrukturierte Daten

Strukturierte Daten sind klar organisiert und leicht zu verarbeiten. Sie bestehen aus Zeilen und Spalten, wobei jede Zeile eine Beobachtung und jede Spalte ein Attribut darstellt. Ein typisches wäre eine Excel-Tabelle mit Verkaufsdaten, bei der jede Zeile einen einzelnen Verkauf repräsentiert und Spalten wie Datum, Produkt, Menge und Preis enthalten. Diese Daten sind für viele ML-Algorithmen, insbesondere für tabellarische Analysen, sehr gut geeignet.

Unstrukturierte Daten hingegen haben keine vordefinierte Struktur und sind daher schwieriger zu verarbeiten. Textdokumente, Bilder, Videos und Audiodateien fallen in diese Kategorie. Um unstrukturierte Daten für ML-Modelle nutzbar zu machen, müssen sie oft in eine strukturierte Form umgewandelt werden. Bei Texten kann dies bedeuten, Wörter zu zählen, Stimmungsanalysen durchzuführen oder Schlüsselbegriffe zu extrahieren. Bei Bildern kann es um die Erkennung von Kanten, Farben oder Formen gehen. Die Verarbeitung unstrukturierter Daten erfordert oft spezialisierte Techniken und Modelle, wie z. B. neuronale Netze, die für die Analyse von Bild- oder Textdaten konzipiert sind.

Datenbereinigung und -transformation

Rohdaten sind selten perfekt. Sie enthalten oft fehlende Werte, Ausreißer, Duplikate oder inkonsistente Formate. Die Datenbereinigung ist der Prozess der Identifizierung und Korrektur dieser Probleme, um die Qualität und Zuverlässigkeit der Daten zu gewährleisten. Fehlende Werte können durch Mittelwerte, Medianwerte oder fortgeschrittenere Imputationstechniken ersetzt werden. Ausreißer, die extremen Werte, die die Analyse verzerren könnten, werden identifiziert und gegebenenfalls entfernt oder transformiert. Inkonsistente Datenformate, wie unterschiedliche Schreibweisen von Städten oder Datumsangaben, werden vereinheitlicht.

Datenaggregation und -transformation sind weitere wichtige Schritte. Aggregation kann bedeuten, einzelne Transaktionen zu Monatsumsätzen zusammenzufassen. Transformation kann das Skalieren von numerischen Merkmalen umfassen, um sicherzustellen, dass keine Merkmalwerte die anderen dominieren. Beispielsweise kann die Umwandlung von positiven Werten in logarithmische Skalen oder die Standardisierung von Merkmalen, sodass sie eine Einheitsvarianz und einen Mittelwert von Null aufweisen, die Leistung von ML-Algorithmen erheblich verbessern. Tools und Bibliotheken für Datenmanipulation sind hierbei unverzichtbar, um diese komplexen Prozesse effizient zu gestalten.

Feature Engineering und Auswahl

Feature Engineering ist die Kunst, aus Rohdaten neue, aussagekräftige Merkmale zu erstellen, die dem ML-Modell helfen, Muster besser zu erkennen. Dies erfordert oft Domänenwissen und Kreativität. Beispielsweise könnte aus dem Datum einer Transaktion ein neues Merkmal „Wochentag“ oder „Monat“ abgeleitet werden, das für die Vorhersage von Verkaufszahlen relevant sein könnte. Bei Textdaten könnte die Häufigkeit bestimmter Wörter oder die sentimentale Tonalität als neue Merkmale extrahiert werden.

Nachdem die Merkmale erstellt wurden, ist es wichtig, die relevantesten auszuwählen. Nicht jedes Merkmal ist nützlich; einige können sogar störend sein und die Modellleistung verschlechtern. Die Merkmalsauswahl hilft, das Modell zu vereinfachen, die Trainingszeit zu verkürzen und Überanpassung zu vermeiden. Techniken reichen von einfachen Filtermethoden, die Merkmale basierend auf statistischen Maßen bewerten, bis hin zu Wrapper-Methoden, bei denen verschiedene Teilmengen von Merkmalen mit dem ML-Modell getestet werden, um die beste Kombination zu finden. Ein guter Überblick über Feature Engineering findet sich in einschlägigen Lehrbüchern oder Online-Kursen.

3. Überwachtes Lernen

Überwachtes Lernen ist die häufigste Form des maschinellen Lernens. Hierbei wird ein Modell mit gekennzeichneten Daten trainiert, das heißt, für jede Eingabe ist die gewünschte Ausgabe (das „Label“ oder die „Zielvariable“) bekannt. Stell dir vor, du zeigst einem Kind viele Bilder von Hunden und sagst ihm jedes Mal „Das ist ein Hund“. Mit der Zeit lernt das Kind, Hunde auch auf neuen Bildern zu erkennen. Genauso lernt ein überwachtes ML-Modell, eine Beziehung zwischen den Eingabedaten und den zugehörigen Ausgaben herzustellen.

Die Hauptaufgabe des überwachten Lernens besteht darin, eine Funktion zu lernen, die die Eingabemerkmale (Features) auf die Ausgabemerkmale (Labels) abbildet. Dies kann entweder die Vorhersage eines kontinuierlichen Wertes sein (Regression) oder die Klassifizierung von Datenpunkten in vordefinierte Kategorien (Klassifikation). Das Ziel ist, dass das Modell nach dem Training in der Lage ist, für neue, unbekannte Eingabedaten die korrekte Ausgabe vorherzusagen.

Klassifikation

Bei der Klassifikation ist die Zielvariable eine diskrete Kategorie. Das Modell lernt, Eingabedaten einer von mehreren vordefinierten Klassen zuzuordnen. Ein klassisches ist die Spam-Erkennung, bei der eine E-Mail entweder als „Spam“ oder „Kein Spam“ klassifiziert wird. Andere Beispiele sind die Erkennung von Handgeschriebenen Ziffern (0-9), die Diagnose von Krankheiten (krank oder gesund) oder die Sortierung von Kunden in verschiedene Segmente. Für die Klassifikation gibt es verschiedene Algorithmen, wie z. B. logistische Regression, Support Vector Machines (SVMs) oder Entscheidungsbäume.

Die Leistung eines Klassifikationsmodells wird anhand von Metriken wie Genauigkeit (Accuracy), Präzision (Precision), Rückruf (Recall) und dem F1-Score bewertet. Die Wahl der richtigen Metrik hängt von der Art des Problems ab. Bei der Klassifikation von medizinischen Diagnosen ist es beispielsweise oft wichtiger, möglichst alle tatsächlichen Krankheitsfälle zu erkennen (hoher Rückruf), auch wenn das bedeutet, dass einige gesunde Personen fälschlicherweise als krank eingestuft werden. Tutorials zu Klassifikationsalgorithmen sind online leicht verfügbar.

Regression

Bei der Regression ist die Zielvariable ein kontinuierlicher numerischer Wert. Das Modell lernt, einen numerischen Wert basierend auf den Eingabemerkmalen vorherzusagen. Ein typisches ist die Vorhersage von Hauspreisen basierend auf Merkmalen wie Größe, Lage und Anzahl der Zimmer. Andere Anwendungsfälle sind die Vorhersage von Aktienkursen, die Schätzung von Verkaufszahlen oder die Prognose von Temperaturen. Lineare Regression und Polynomielle Regression sind grundlegende Algorithmen in diesem Bereich.

Die Leistung von Regressionsmodellen wird typischerweise mit Metriken wie dem mittleren quadratischen Fehler (Mean Squared Error – MSE) oder dem mittleren absoluten Fehler (Mean Absolute Error – MAE) bewertet. Diese Metriken geben an, wie groß die durchschnittliche Abweichung zwischen den tatsächlichen und den vorhergesagten Werten ist. Je kleiner diese Werte sind, desto besser ist das Modell. Ein gutes Verständnis der Regressionsanalyse ist für viele datengesteuerte Entscheidungen unerlässlich.

Trainings-, Validierungs- und Testdatensätze

Um die Leistung eines überwachten ML-Modells zu bewerten und zu verhindern, dass es sich zu sehr an die Trainingsdaten anpasst (Überanpassung), ist es üblich, die verfügbaren Daten in drei verschiedene Sätze aufzuteilen: den Trainingsdatensatz, den Validierungsdatensatz und den Testdatensatz. Der Trainingsdatensatz wird verwendet, um das Modell zu trainieren. Der Validierungsdatensatz wird während des Trainings verwendet, um Hyperparameter zu optimieren und die Leistung des Modells auf neuen Daten zu bewerten, ohne dass es die Trainingsdaten „sieht“.

Der Testdatensatz wird schließlich einmal am Ende des gesamten Prozesses verwendet, um die endgültige, unvoreingenommene Bewertung der Modellleistung auf völlig unbekannten Daten zu erhalten. Dies simuliert am besten, wie das Modell in der realen Welt funktionieren wird. Eine gängige Aufteilung ist 70% für Training, 15% für Validierung und 15% für Tests, wobei diese Verhältnisse je nach Größe des Datensatzes und Art des Problems variieren können. Die korrekte Aufteilung und Nutzung dieser Datensätze ist entscheidend für den Aufbau zuverlässiger ML-Modelle.

4. Unüberwachtes Lernen

Im Gegensatz zum überwachten Lernen arbeitet unüberwachtes Lernen mit nicht gekennzeichneten Daten. Das bedeutet, es gibt keine vordefinierten Ausgaben oder „richtigen Antworten“. Stattdessen versucht das Modell, verborgene Muster, Strukturen oder Zusammenhänge in den Daten selbst zu entdecken. Stell dir vor, du gibst einem Kind eine Kiste voller verschiedener Spielzeuge und es versucht, ähnliche Spielzeuge zusammenzulegen, ohne dass du ihm sagst, was ein Auto oder ein Ball ist. Das ist im Grunde unüberwachtes Lernen.

Das Hauptziel des unüberwachten Lernens ist es, die Daten zu verstehen und zu organisieren. Es wird häufig verwendet, um die Daten zu explorieren, neue Erkenntnisse zu gewinnen, Anomalien zu erkennen oder Daten für andere ML-Aufgaben vorzubereiten. Zwei der bekanntesten Anwendungen des unüberwachten Lernens sind Clustering und Dimensionsreduktion.

Clustering

Clustering ist der Prozess, bei dem Datenpunkte in Gruppen (Cluster) eingeteilt werden, sodass Punkte innerhalb eines Clusters sich ähnlicher sind als Punkte in anderen Clustern. Dies hilft dabei, natürliche Gruppierungen in den Daten aufzudecken. Ein typisches ist die Kundensegmentierung: Basierend auf Kaufverhalten, Demografie und Interaktionen können Kunden in verschiedene Gruppen eingeteilt werden, um gezieltere Marketingkampagnen zu entwickeln. Andere Anwendungen sind die Gruppierung von Dokumenten nach Thema oder die Identifizierung von Ähnlichkeiten in Bildern.

Es gibt verschiedene Clustering-Algorithmen, wie z. B. K-Means, DBSCAN oder hierarchisches Clustering. K-Means ist ein populärer Algorithmus, der versucht, die Daten in eine vordefinierte Anzahl von Clustern (K) aufzuteilen, indem er die Mittelwerte (Cluster-Zentren) iterativ anpasst. Die Wahl des richtigen Algorithmus und die Interpretation der gefundenen Cluster erfordern oft Domänenwissen. Ressourcen zum Thema Clustering gibt es in vielen Data-Science-Communities.

Dimensionsreduktion

In vielen Datensätzen gibt es eine große Anzahl von Merkmalen, was die Analyse erschweren und zu Problemen wie dem „Fluch der Dimensionalität“ führen kann. Dimensionsreduktion ist der Prozess, die Anzahl der Merkmale zu reduzieren, während so viel Information wie möglich erhalten bleibt. Dies kann die Modellleistung verbessern,

Autorin

Laura Schneider

Content Creator @ Taurus Software

info@taurus-software.de