Mittelwert, Median, Modus
Introduction
Willkommen zu unserem Leitfaden zur Verwendung von Mittelwert, Median und Modus im Python-Machine-Learning. Sie lernen, wie man diese Maße der zentralen Tendenz berechnet und sie zur Vorverarbeitung von Daten anwendet, was die Genauigkeit Ihres Modells verbessern kann.
Was sind Mittelwert, Median und Modus?
Mittelwert, Median und Modus sind allesamt Maße der zentralen Tendenz in der Statistik. Im Python-Machine-Learning werden diese Konzepte verwendet, um die Verteilung von Daten in einem Datensatz zu beschreiben. Der Mittelwert ist der Durchschnittswert eines Datensatzes, während der Median der mittlere Wert ist, wenn die Daten der Größe nach sortiert werden. Der Modus ist der Wert, der in einem Datensatz am häufigsten vorkommt.
Mittelwert, Median und Modus im Python-Machine-Learning verwenden
Nachdem wir nun ein grundlegendes Verständnis von Mittelwert, Median und Modus haben, sehen wir uns an, wie sie im Python-Machine-Learning verwendet werden können. Diese Maße werden häufig für die deskriptive Statistik und zum Umgang mit fehlenden Werten (Imputation) verwendet, bevor Daten in ein Modell eingespeist werden. In pandas können Sie sie direkt auf Series und DataFrames berechnen, und scikit-learns SimpleImputer kann sie während Vorverarbeitungspipelines anwenden. Die korrekte Berücksichtigung dieser Werte kann die Modellgenauigkeit erheblich verbessern.
Mittelwert
Der Mittelwert ist ein nützliches Maß der zentralen Tendenz für normalverteilte Daten. Um den Mittelwert in Python zu berechnen, können Sie die Bibliothek numpy verwenden. Hier ist ein Beispiel:
Mittelwert einer Liste mit numpy ermitteln
import numpy as np
data = [1, 2, 3, 4, 5]
mean = np.mean(data)
print(mean) # Output: 3.0Dies gibt den Mittelwert der Daten aus, der 3 ist.
Median
Der Median ist ein nützliches Maß der zentralen Tendenz für nicht normalverteilte Daten. Um den Median in Python zu berechnen, können Sie die Bibliothek numpy verwenden. Hier ist ein Beispiel:
Median einer Liste mit numpy ermitteln
import numpy as np
data = [1, 2, 3, 4, 5]
median = np.median(data)
print(median) # Output: 3.0Dies gibt den Median der Daten aus, der 3 ist.
Modus
Der Modus ist ein nützliches Maß der zentralen Tendenz für kategoriale Daten. Um den Modus in Python zu berechnen, können Sie die Bibliothek statistics verwenden. Hier ist ein Beispiel:
Modus einer Liste mit der statistics-Bibliothek ermitteln
import statistics
data = ['red', 'blue', 'green', 'red', 'red']
mode = statistics.mode(data)
print(mode) # Output: 'red'Dies gibt den Modus der Daten aus, der 'red' ist. Hinweis: Wenn ein Datensatz mehrere Modi enthält, löst statistics.mode() einen StatisticsError aus. Verwenden Sie stattdessen statistics.multimode(), um multimodale Daten sicher zu verarbeiten.
Fazit
Mittelwert, Median und Modus sind entscheidend, um Datenverteilungen im Python-Machine-Learning zu beschreiben. Ihr korrekter Einsatz während der Vorverarbeitung hilft beim Umgang mit fehlenden Werten und Ausreißern und führt zu genaueren Modellen. Wählen Sie immer das Maß, das am besten zur Verteilung Ihrer Daten passt.