Pandas contre Polars : La bataille de la performance

Lorsque vous effectuez des tâches d’analyse de données, il y a de fortes chances que vous ayez rencontré Pandas. Il s’agit de la bibliothèque la plus répandue dans le domaine de l’analyse de données depuis longtemps. Polars, quant à lui, est une bibliothèque relativement récente qui se targue de performances élevées et d’une grande efficacité en termes de mémoire. Mais laquelle est la meilleure ?

Ici, vous verrez une comparaison des performances entre Pandas et Polars pour une série de tâches courantes de manipulation de données.

Mesurer la performance : Métriques et ensemble de données de référence

Cette comparaison prendra en compte la capacité des bibliothèques Pandas et Polars à manipuler l’ensemble de données Black Friday Sale de Kaggle. Ce jeu de données contient 550 068 lignes de données. Il comprend des informations sur les caractéristiques démographiques des clients, l’historique des achats et les détails des produits.

Pour garantir des mesures de performance équitables, la comparaison utilisera le temps d’exécution comme mesure de performance standard pour chaque tâche. La plateforme d’exécution du code pour chaque tâche de comparaison sera Google Colab.

Le code source complet qui compare les bibliothèques Pandas et Polars est disponible dans un dépôt GitHub.

Lire les données d’un fichier CSV

Cette tâche compare le temps nécessaire à chaque bibliothèque pour lire les données de l’ensemble de données Black Friday Sale. Le jeu de données est au format CSV. Pandas et Polars offrent des fonctionnalités similaires pour cette tâche.

Diagramme à barres montrant la comparaison entre le temps nécessaire à Pandas et à Polars pour lire un fichier CSV.

Les Pandas mettent deux fois plus de temps que les Polars à lire les données de l’ensemble de données Black Friday Sale.

Sélection des colonnes

Cette tâche mesure le temps nécessaire à chaque bibliothèque pour sélectionner les colonnes de l’ensemble de données. Il s’agit de sélectionner les ID_utilisateur et Achat colonnes.

Polars prend beaucoup moins de temps que Pandas pour sélectionner des colonnes dans le jeu de données.

Filtrage des lignes

Cette tâche compare les performances de chaque bibliothèque dans le filtrage des lignes où le paramètre Sexe est F de l’ensemble de données.

Un diagramme à barres montrant la comparaison entre le temps nécessaire aux Pandas et aux Polars pour filtrer les lignes.

Les Polars prennent très peu de temps par rapport aux Pandas pour filtrer les lignes.

Regroupement et agrégation des données

Cette tâche consiste à regrouper des données en fonction d’une ou plusieurs colonnes. Ensuite, il faut effectuer des fonctions d’agrégation sur les groupes. Elle mesure le temps qu’il faut à chaque bibliothèque pour regrouper les données en fonction de la ou des colonnes. Genre et calculez le montant moyen des achats pour chaque groupe.

Un diagramme à barres montrant la comparaison entre les Polars et les Pandas dans le regroupement et l'agrégation des données.

Là encore, les Polars sont plus performants que les Pandas. Mais la marge n’est pas aussi importante que celle du filtrage des lignes.

Appliquer des fonctions aux données

Cette tâche consiste à appliquer une fonction à une ou plusieurs colonnes….

Lire la suite de l’article sur encause.fr

À propos
Articles récents

Me suivre

Cameroun Actuel

Suivez les dernières nouvelles de dernière minute et les développements du Cameroun et du monde entier avec Cameroun Actuel. De la politique à l'économie et à l'environnement, des problèmes locaux aux événements nationaux et aux affaires mondiales, nous avons ce qu'il vous faut.

Me suivre

Les derniers articles par Cameroun Actuel (tout voir)

Lions indomptables : l’absence d’Onana et Aboubakar fait polémique, Pagou s’explique - 19 mars 2026
Assemblée nationale : le mandat des députés prorogé jusqu’au 20 décembre 2026 - 19 mars 2026
Une femme médecin anesthésiste assassinée à Obala - 19 mars 2026

Pandas contre Polars : La bataille de la performance

Mesurer la performance : Métriques et ensemble de données de référence

Lire les données d’un fichier CSV

Sélection des colonnes

Filtrage des lignes

Regroupement et agrégation des données

Appliquer des fonctions aux données

Laisser un commentaireAnnuler la réponse.

Dernières nouvelles

Lions indomptables : l’absence d’Onana et Aboubakar fait polémique, Pagou s’explique

Assemblée nationale : le mandat des députés prorogé jusqu’au 20 décembre 2026

Une femme médecin anesthésiste assassinée à Obala

Coup de théâtre : la Cour suprême annule la condamnation de Sisiku Julius Ayuk Tabe et de neuf autres dirigeants anglophones

25 000 litres de carburant de contrebande saisis à Boumnyebel

Commerce en Afrique centrale : l’UE débloque 26 millions d’euros pour booster la compétitivité des PME

Niété : les présumés assassins de Socapalm et Hevecam enfin arrêtés

China-DRC media forum champions mutual benefit, win-win cooperation

Suivez-nous !

Lire aussi

China-DRC media forum champions mutual benefit, win-win cooperation

Le Forum médias Chine-RDC promeut les bénéfices mutuels et la coopération gagnant-gagnant

Xinhua Headlines: 15th Five-Year Plan to guarantee steady, long-term advancement of Chinese modernization

(China Economic Roundtable) Xinhua Headlines: 15th Five-Year Plan period crucial for realizing Chinese modernization

China, U.S. hold candid, in-depth, constructive talks on economic, trade issues

Tchad : HBC S.A investi dans le social

Entreprenariat tchadien : le Groupe HBC S.A fait peur aux entreprises étrangères

China Focus: China reaffirms peaceful development amid heightened global volatility

Rubriques

Opinions

L'actu à ne pas manquer

Services

Suivez nous sur :

Contactez nous