viewof source = Inputs.radio([
"Recensement", "Répertoire électoral unique"
], {value: "Recensement"})ParquetUne découverte à travers l’exemple des données du recensement
5 novembre 2024
Parquet ?ParquetEnquêtes annuelles de recensement (EAR) depuis 2004

Un format destiné à des utilisateurs avancés
Parquet pour les usages internes à l’Insee:




Parquet ?R, Python et ObservableExemple: recensement de la population
Exemple: statistiques de la délinquance
CSV: en apparence pratique
Problème: il faut scanner tout le fichier pour avoir une seule colonne
Parquet: un format orienté colonneParquet : quels avantages ?Parquet : quels usages ?Premières diffusions à l’externe
Parquet : quels usages ?viewof source = Inputs.radio([
"Recensement", "Répertoire électoral unique"
], {value: "Recensement"})db = DuckDBClient.of({})
rp = db.query(
"SELECT AGED, CATL, SEXE, CANTVILLE, IPONDI FROM read_parquet('https://static.data.gouv.fr/resources/recensement-de-la-population-fichiers-detail-individus-localises-au-canton-ou-ville-2020-1/20231023-122841/fd-indcvi-2020.parquet') LIMIT 5"
)
reu = db.query(
"SELECT geo_adresse, id_brut_bv_reu FROM read_parquet('https://static.data.gouv.fr/resources/bureaux-de-vote-et-adresses-de-leurs-electeurs/20230626-135723/table-adresses-reu.parquet') LIMIT 5"
)DuckDB ?Parquet ne résout pas tout:
❓️ Comment analyser ces données sur un PC avec 8 GB de RAM ?
DuckDB ?DuckDB ?DuckDB est un utilitaire open source
Observable pour simplifier l’usagetidyverse pour ![]()
DuckDB est très efficace:
💡 Les avantages du monde des bases de données sans ses inconvénients
Astuce
Si vous avez un compte, n’hésitez pas à essayer les exemples présentés en live !