viewof source = Inputs.radio([
"Recensement", "Répertoire électoral unique"
], {value: "Recensement"})
Parquet
Une découverte à travers l’exemple des données du recensement
5 novembre 2024
Parquet
?Parquet
Enquêtes annuelles de recensement (EAR) depuis 2004
Un format destiné à des utilisateurs avancés
Parquet
pour les usages internes à l’Insee:
Parquet
?R
, Python
et Observable
Exemple: recensement de la population
Exemple: statistiques de la délinquance
CSV
: en apparence pratiqueProblème: il faut scanner tout le fichier pour avoir une seule colonne
Parquet
: un format orienté colonneParquet
: quels avantages ?Parquet
: quels usages ?Premières diffusions à l’externe
Parquet
: quels usages ?viewof source = Inputs.radio([
"Recensement", "Répertoire électoral unique"
], {value: "Recensement"})
db = DuckDBClient.of({})
rp = db.query(
"SELECT AGED, CATL, SEXE, CANTVILLE, IPONDI FROM read_parquet('https://static.data.gouv.fr/resources/recensement-de-la-population-fichiers-detail-individus-localises-au-canton-ou-ville-2020-1/20231023-122841/fd-indcvi-2020.parquet') LIMIT 5"
)
reu = db.query(
"SELECT geo_adresse, id_brut_bv_reu FROM read_parquet('https://static.data.gouv.fr/resources/bureaux-de-vote-et-adresses-de-leurs-electeurs/20230626-135723/table-adresses-reu.parquet') LIMIT 5"
)
DuckDB
?Parquet
ne résout pas tout:
❓️ Comment analyser ces données sur un PC avec 8 GB de RAM ?
DuckDB
?DuckDB
?DuckDB
est un utilitaire open source
Observable
pour simplifier l’usagetidyverse
pour DuckDB
est très efficace:
💡 Les avantages du monde des bases de données sans ses inconvénients
Astuce
Si vous avez un compte, n’hésitez pas à essayer les exemples présentés en live !