Lorsque vous effectuez des tâches d’analyse de données, il y a de fortes chances que vous ayez rencontré Pandas. Il s’agit de la bibliothèque la plus répandue dans le domaine de l’analyse de données depuis longtemps. Polars, quant à lui, est une bibliothèque relativement récente qui se targue de performances élevées et d’une grande efficacité en termes de mémoire. Mais laquelle est la meilleure ?
Ici, vous verrez une comparaison des performances entre Pandas et Polars pour une série de tâches courantes de manipulation de données.
Mesurer la performance : Métriques et ensemble de données de référence
Cette comparaison prendra en compte la capacité des bibliothèques Pandas et Polars à manipuler l’ensemble de données Black Friday Sale de Kaggle. Ce jeu de données contient 550 068 lignes de données. Il comprend des informations sur les caractéristiques démographiques des clients, l’historique des achats et les détails des produits.
Pour garantir des mesures de performance équitables, la comparaison utilisera le temps d’exécution comme mesure de performance standard pour chaque tâche. La plateforme d’exécution du code pour chaque tâche de comparaison sera Google Colab.
Le code source complet qui compare les bibliothèques Pandas et Polars est disponible dans un dépôt GitHub.
Lire les données d’un fichier CSV
Cette tâche compare le temps nécessaire à chaque bibliothèque pour lire les données de l’ensemble de données Black Friday Sale. Le jeu de données est au format CSV. Pandas et Polars offrent des fonctionnalités similaires pour cette tâche.
Les Pandas mettent deux fois plus de temps que les Polars à lire les données de l’ensemble de données Black Friday Sale.
Sélection des colonnes
Cette tâche mesure le temps nécessaire à chaque bibliothèque pour sélectionner les colonnes de l’ensemble de données. Il s’agit de sélectionner les ID_utilisateur et Achat colonnes.
Polars prend beaucoup moins de temps que Pandas pour sélectionner des colonnes dans le jeu de données.
Filtrage des lignes
Cette tâche compare les performances de chaque bibliothèque dans le filtrage des lignes où le paramètre Sexe est F de l’ensemble de données.
Les Polars prennent très peu de temps par rapport aux Pandas pour filtrer les lignes.
Regroupement et agrégation des données
Cette tâche consiste à regrouper des données en fonction d’une ou plusieurs colonnes. Ensuite, il faut effectuer des fonctions d’agrégation sur les groupes. Elle mesure le temps qu’il faut à chaque bibliothèque pour regrouper les données en fonction de la ou des colonnes. Genre et calculez le montant moyen des achats pour chaque groupe.
Là encore, les Polars sont plus performants que les Pandas. Mais la marge n’est pas aussi importante que celle du filtrage des lignes.
Appliquer des fonctions aux données
Cette tâche consiste à appliquer une fonction à une ou plusieurs colonnes….
Lire la suite de l’article sur encause.fr






