Duplikate in Python entfernen: Ein umfassender Leitfaden

Duplizierte Daten können ein häufiges Problem für jeden sein, der mit Daten arbeitet, insbesondere für diejenigen, die Python als Programmiersprache verwenden. Duplizierte Daten können zu Verwirrung führen und in einigen Fällen sogar zu Fehlern im Code führen. In diesem Leitfaden werden wir die verschiedenen Möglichkeiten zum Entfernen von Duplikaten in Python erkunden, von integrierten Funktionen bis hin zu fortgeschrittenen Techniken.

Entfernen von Duplikaten mit dem Datentyp Set

Die einfachste Möglichkeit, Duplikate in Python zu entfernen, besteht darin, den Datentyp set zu verwenden. Ein Set ist eine ungeordnete Sammlung eindeutiger Elemente. Durch das Konvertieren einer Liste in ein Set können wir daher alle Duplikate problemlos entfernen. Hier ist ein Beispiel:

durch das Konvertieren einer Liste in ein Set können wir alle Duplikate in einer Python-Liste problemlos entfernen

python

my_list = [1, 2, 2, 3, 4, 4, 5]
my_set = set(my_list)
unique_list = list(my_set)
print(unique_list)

Try it Yourself »

Dies wird folgende Ausgabe erzeugen:

console

[1, 2, 3, 4, 5]

Wie Sie sehen können, wurden alle Duplikate aus der ursprünglichen Liste entfernt. Diese Methode ist sehr schnell und effizient, was sie zu einer hervorragenden Wahl für kleine bis mittlere Listen macht.

Verwendung von `dict.fromkeys()` zur Beibehaltung der Reihenfolge

Der Datentyp set ist großartig zum Entfernen von Duplikaten, behält jedoch nicht die Reihenfolge der Elemente in der ursprünglichen Liste bei. In Python 3.7+ bewahren Standard-Wörterbücher (Dictionaries) die Einfügereihenfolge bei, wodurch dict.fromkeys() zum modernen Standard für die Deduplizierung unter Beibehaltung der Reihenfolge wird. Hier ist ein Beispiel:

durch die Verwendung von dict.fromkeys() können wir alle Duplikate in einer Python-Liste problemlos entfernen

python

my_list = [1, 2, 2, 3, 4, 4, 5]
unique_list = list(dict.fromkeys(my_list))
print(unique_list)

Try it Yourself »

Dies wird folgende Ausgabe erzeugen:

console

[1, 2, 3, 4, 5]

Die Methode dict.fromkeys() behält die Reihenfolge der Elemente in der ursprünglichen Liste bei. Für die Kompatibilität mit älteren Python-Versionen können Sie weiterhin OrderedDict aus dem Modul collections verwenden.

Verwendung der Pandas-Bibliothek für DataFrames

Wenn Sie mit Daten in tabellarischer Form arbeiten, beispielsweise in einer CSV-Datei, können Sie die Pandas-Bibliothek verwenden, um Duplikate zu entfernen. Pandas ist eine leistungsstarke Bibliothek für die Datenanalyse und bietet eine bequeme Möglichkeit, mit Daten im DataFrame-Format zu arbeiten.

Hier ist ein Beispiel:

Lesen von Daten aus einer CSV-Datei mit Pandas und Entfernen der Duplikate in Python

python

import pandas as pd

df = pd.read_csv('my_data.csv')
df.drop_duplicates(inplace=True)
df.to_csv('my_data_unique.csv', index=False)

Dies liest die CSV-Datei ein, entfernt alle Duplikate und speichert die eindeutigen Daten dann in einer neuen Datei. Das Verhalten können Sie über Parameter wie subset (zur Angabe von Spalten) und keep ('first', 'last' oder False, um alle Duplikate zu entfernen) steuern.

Verwendung der FuzzyWuzzy-Bibliothek für Fuzzy-Matching

In einigen Fällen können Daten vorliegen, die nicht exakt identisch, aber sehr ähnlich sind. Beispielsweise können Sie eine Liste von Namen haben, die leichte Abweichungen in der Schreibweise oder Interpunktion aufweisen. In solchen Fällen können Sie die FuzzyWuzzy-Bibliothek für Fuzzy-Matching verwenden.

Hier ist ein Beispiel:

Verwendung der FuzzyWuzzy-Bibliothek für Fuzzy-Matching in einer Python-Liste

python

from thefuzz import fuzz

my_list = ['John Smith', 'John Smithe', 'Jon Smyth', 'Jane Doe', 'Jan Doe']
unique_list = []

for name in my_list:
    if not any(fuzz.ratio(name, x) > 80 for x in unique_list):
        unique_list.append(name)

print(unique_list)

Dies wird folgende Ausgabe erzeugen:

console

['John Smith', 'Jane Doe']

Die FuzzyWuzzy-Bibliothek verwendet einen verhältnisbasierten Matching-Algorithmus, um Strings zu vergleichen und ähnliche Übereinstimmungen zu finden. In diesem Beispiel behalten wir nur Namen bei, die ein Fuzzy-Matching-Verhältnis von 80 oder höher aufweisen. Beachten Sie, dass fuzzywuzzy veraltet ist; thefuzz ist der aktiv gepflegte Fork und bietet einen direkten Ersatz.

Fazit

Das Entfernen von Duplikaten ist eine häufige Aufgabe in der Datenverarbeitung, und Python bietet mehrere Methoden, um dies zu erreichen. Durch die Verwendung des set-Datentyps können wir Duplikate schnell aus einer Liste entfernen. Die Methode dict.fromkeys() kann verwendet werden, um die Reihenfolge der Elemente in der Liste beizubehalten, während Duplikate entfernt werden. Bei der Arbeit mit tabellarischen Daten bietet die Pandas-Bibliothek eine bequeme Möglichkeit, Duplikate aus DataFrames zu entfernen. Schließlich kann die FuzzyWuzzy-Bibliothek für Fälle verwendet werden, in denen die Daten nicht exakt, aber ähnlich sind, um Fuzzy-Matching durchzuführen.

Zusammenfassend lässt sich sagen, dass wir durch die Anwendung dieser verschiedenen Techniken Duplikate effektiv aus unseren Daten entfernen und die Qualität sowie Genauigkeit unseres Codes verbessern können. Es ist wichtig zu überlegen, welche Methode für die jeweiligen Daten am besten geeignet ist, und den Code stets zu testen, um sicherzustellen, dass er die erwarteten Ergebnisse liefert.

Duplikate in Python entfernen: Ein umfassender Leitfaden ​

Entfernen von Duplikaten mit dem Datentyp Set ​

Verwendung von dict.fromkeys() zur Beibehaltung der Reihenfolge ​

Verwendung der Pandas-Bibliothek für DataFrames ​

Verwendung der FuzzyWuzzy-Bibliothek für Fuzzy-Matching ​

Fazit ​

Duplikate in Python entfernen: Ein umfassender Leitfaden

Entfernen von Duplikaten mit dem Datentyp Set

Verwendung von `dict.fromkeys()` zur Beibehaltung der Reihenfolge

Verwendung der Pandas-Bibliothek für DataFrames

Verwendung der FuzzyWuzzy-Bibliothek für Fuzzy-Matching

Fazit