Große Datenworkflows mit Pandas
Hier ist ein Beispiel für einen Workflow zur Verarbeitung von großen Datenmengen mit der pandas-Bibliothek:
import pandas as pd
# Lese große Datendatei mit Hilfe des chunksize-Parameters ein, um sie in kleinen
# Schritten einzulesen, anstatt die gesamte Datei in den Arbeitsspeicher zu laden
df_iterator = pd.read_csv("large_data.csv", chunksize=100000)
# Verarbeite jeden Datenblock
for df_chunk in df_iterator:
# Führe Datenreinigung und -vorverarbeitung auf dem Block aus
df_chunk = df_chunk.dropna()
df_chunk["column_name"] = df_chunk["column_name"].str.lower()
# Füge den verarbeiteten Block einer Liste hinzu
processed_data.append(df_chunk)
# Verbinde alle Blöcke zu einem einzigen Dataframe
final_df = pd.concat(processed_data)
# Führe weitere Analysen durch oder exportiere Daten
final_df.to_csv("cleaned_large_data.csv", index=False)
In diesem Beispiel wird die große Datendatei mit der Funktion pd.read_csv()
und dem Parameter chunksize
mit dem Wert 100000 gelesen. Dadurch wird die Datei in Blöcken von 100000 Zeilen gelesen, wodurch die Daten in kleineren Schritten verarbeitet werden können, anstatt die gesamte Datei in den Arbeitsspeicher zu laden. Jeder Block wird dann gereinigt und vorverarbeitet und die gereinigten Blöcke werden einer Liste hinzugefügt. Sobald alle Blöcke verarbeitet wurden, werden die Blöcke in einem einzigen Dataframe mithilfe von pd.concat()
zusammengefügt. Das endgültige Dataframe kann dann für weitere Analysen verwendet oder in eine neue Datei exportiert werden.