Zum Inhalt springen

Pandas-Tutorial

Python Pandas ist ein Open-Source-Tool für Datenanalyse und -manipulation, das in der Data-Science-Community weit verbreitet ist. Es basiert auf der Programmiersprache Python und bietet benutzerfreundliche Datenstrukturen und Analysewerkzeuge. In diesem Artikel werfen wir einen detaillierten Blick auf die Python-Pandas-Bibliothek, ihre Funktionen und wie man sie für Datenanalyseaufgaben verwendet.

Erste Schritte mit Pandas

Um mit Pandas zu beginnen, müssen Sie die Bibliothek zunächst installieren. Dies können Sie mit pip, dem Python-Paketmanager, erledigen. Wenn Sie das Plotting-Beispiel in diesem Tutorial verwenden möchten, installieren Sie auch matplotlib. Nachdem Sie Pandas installiert haben, können Sie es in Ihren Python-Code mit dem folgenden Befehl importieren:

Pandas in Python importieren

python
import pandas as pd

Datenstrukturen in Pandas

Pandas bietet zwei Hauptdatenstrukturen: Series und DataFrame. Eine Series ist ein eindimensionales, array-ähnliches Objekt, das Datentypen wie Ganzzahlen, Strings und Gleitkommazahlen speichern kann. Ein DataFrame ist eine zweidimensionale, tabellenähnliche Datenstruktur, die aus Zeilen und Spalten besteht. Man kann sie sich wie eine Tabellenkalkulation oder eine SQL-Tabelle vorstellen.

Eine Pandas-Series in Python erstellen

python
import pandas as pd

s = pd.Series([10, 20, 30, 40])
print(s)

Arbeiten mit DataFrames

DataFrames sind das Rückgrat der Datenanalyse in Pandas. Sie ermöglichen es Ihnen, große Datenmengen einfach zu manipulieren, zu filtern und zu analysieren. Sie können einen DataFrame erstellen, indem Sie ein Dictionary von Listen oder ein NumPy-Array an den DataFrame-Konstruktor übergeben.

Erstellen eines Pandas-DataFrames aus einem Dictionary von Listen oder einem NumPy-Array in Python

python
import pandas as pd
import numpy as np

data = {
    'name': ['John', 'Mike', 'Sarah', 'Jane'],
    'age': [25, 30, 28, 35],
    'city': ['New York', 'San Francisco', 'Chicago', 'Miami']
}

df = pd.DataFrame(data)
print(df)

Datenanalyse mit Pandas

Pandas bietet eine breite Palette von Datenanalysewerkzeugen, die das Erkunden und Analysieren von Daten erleichtern. Sie können Funktionen wie describe() und info() verwenden, um einen Überblick über die Daten zu erhalten, sowie head() und tail(), um die ersten und letzten Zeilen des DataFrames vorab anzuzeigen. Sie können auch Zeilen filtern, Daten gruppieren und fehlende Werte mit Methoden wie loc[], groupby() und fillna() behandeln.

Eine CSV-Datei in Python mit Pandas einlesen

python
import pandas as pd

df = pd.read_csv('data.csv')
print(df.describe())
print(df.info())
print(df.head())
print(df.tail())

Datenvisualisierung mit Pandas

Pandas bietet auch Datenvisualisierungstools, die Ihnen helfen können, Diagramme und Grafiken zur Visualisierung Ihrer Daten zu erstellen. Sie können die Funktion plot() verwenden, um verschiedene Diagrammtypen wie Liniendiagramme, Balkendiagramme und Streudiagramme zu erzeugen.

Datenvisualisierung mit Pandas und Matplotlib

python
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('data.csv')
df.plot(kind='line', x='year', y='sales')
plt.show()

Fazit

Zusammenfassend ist Python Pandas ein unverzichtbares Werkzeug für jeden Data Scientist oder Analysten. Seine leistungsstarken Datenstrukturen und Analysewerkzeuge machen es einfach, Daten zu erkunden, zu manipulieren und zu analysieren. Wir hoffen, dass dieser Leitfaden Ihnen ein umfassendes Verständnis von Pandas und seinen Funktionen vermittelt hat, und wünschen Ihnen viel Erfolg auf Ihrer Reise in die Datenanalyse.

Finden Sie das nützlich?

Dual-run-Vorschau — vergleichen Sie mit den Symfony-Routen live.