DATAQUITAINE

Un data engineering plus simple et plus efficient avec DuckDB et Polars

DuckDB Polars PySpark Mono-noeud distribué

Thématique : Structuration des données | Numérique Responsable
Type de talk : Retour d’expérience, cas d’usage client ou métier, Démonstration scientifique ou technique 
Public : Public intermédiaire, avancé ou expert

Résumé du talk :

Dans cette présentation, nous comparerons les performances de DuckDB et Polars, deux outils open source,
face à une solution distribuée comme PySpark. Lors de ces « Datalympiques » nous décrirons brièvement ces
différents outils avant de les comparer dans le cadre d’un usage réel par le prisme de plusieurs perspectives
(efficience dans l’utilisation des ressources, simplicité d’utilisation…)

Maxence HULL

Data Engineer – hello asso

Actuellement Data Engineer chez HelloAsso, j’ai passé un temps non-négligeable de ma vie à comparer les formats de fichier, déchiffrer les systèmes de base de données et trouver des NULLs dans plein de colonnes. Quand je ne code pas, je lis, je cours et je joue à Mario Kart.

Parce que l’engagement est le moteur d’une société plus soudée, HelloAsso est la plateforme qui encourage l’engagement associatif des citoyens.
Les services qu’elle propose sont intégralement offerts aux associations grâce aux contributions que lui laissent volontairement les membres de sa communauté.
Sa solution de paiement a permis à près de 450000 associations de collecter 3 milliards d’euros depuis sa création en 2009 et à 18 millions de citoyens de s’engager dans une association. Grâce à un modèle économique solidaire, 100% des sommes collectées via HelloAsso sont reversées aux projets associatifs : les contributions volontaires des citoyens demeurent son unique source de revenus.