Un data engineering plus simple et plus efficient avec DuckDB et Polars
DuckDB Polars PySpark Mono-noeud distribué
Thématique : Structuration des données | Numérique Responsable
Type de talk : Retour d’expérience, cas d’usage client ou métier, Démonstration scientifique ou technique
Public : Public intermédiaire, avancé ou expert
Résumé du talk :
Dans cette présentation, nous comparerons les performances de DuckDB et Polars, deux outils open source,
face à une solution distribuée comme PySpark. Lors de ces « Datalympiques » nous décrirons brièvement ces
différents outils avant de les comparer dans le cadre d’un usage réel par le prisme de plusieurs perspectives
(efficience dans l’utilisation des ressources, simplicité d’utilisation…)
Maxence HULL
Data Engineer – hello asso
Actuellement Data Engineer chez HelloAsso, j’ai passé un temps non-négligeable de ma vie à comparer les formats de fichier, déchiffrer les systèmes de base de données et trouver des NULLs dans plein de colonnes. Quand je ne code pas, je lis, je cours et je joue à Mario Kart.
Parce que l’engagement est le moteur d’une société plus soudée, HelloAsso est la plateforme qui encourage l’engagement associatif des citoyens.
Les services qu’elle propose sont intégralement offerts aux associations grâce aux contributions que lui laissent volontairement les membres de sa communauté.
Sa solution de paiement a permis à près de 450000 associations de collecter 3 milliards d’euros depuis sa création en 2009 et à 18 millions de citoyens de s’engager dans une association. Grâce à un modèle économique solidaire, 100% des sommes collectées via HelloAsso sont reversées aux projets associatifs : les contributions volontaires des citoyens demeurent son unique source de revenus.