─ Session info ───────────────────────────────────────────────────────────────
setting value
version R version 4.3.2 (2023-10-31)
os EndeavourOS
system x86_64, linux-gnu
ui X11
language (EN)
collate nl_NL.UTF-8
ctype nl_NL.UTF-8
tz Europe/Amsterdam
date 2023-12-31
pandoc 3.1.11 @ /usr/bin/ (via rmarkdown)
─ Packages ───────────────────────────────────────────────────────────────────
package * version date (UTC) lib source
cachem 1.0.8 2023-05-01 [1] CRAN (R 4.3.0)
cli 3.6.2 2023-12-11 [1] CRAN (R 4.3.2)
devtools 2.4.5 2022-10-11 [1] CRAN (R 4.3.1)
digest 0.6.33 2023-07-07 [1] CRAN (R 4.3.1)
ellipsis 0.3.2 2021-04-29 [1] CRAN (R 4.3.0)
evaluate 0.23 2023-11-01 [1] CRAN (R 4.3.2)
fastmap 1.1.1 2023-02-24 [1] CRAN (R 4.3.0)
fs 1.6.3 2023-07-20 [1] CRAN (R 4.3.1)
glue 1.6.2 2022-02-24 [1] CRAN (R 4.3.0)
htmltools 0.5.7 2023-11-03 [1] CRAN (R 4.3.2)
htmlwidgets 1.6.4 2023-12-06 [1] CRAN (R 4.3.2)
httpuv 1.6.13 2023-12-06 [1] CRAN (R 4.3.2)
jsonlite 1.8.8 2023-12-04 [1] CRAN (R 4.3.2)
knitr 1.45 2023-10-30 [1] CRAN (R 4.3.2)
later 1.3.2 2023-12-06 [1] CRAN (R 4.3.2)
lifecycle 1.0.4 2023-11-07 [1] CRAN (R 4.3.2)
magrittr 2.0.3 2022-03-30 [1] CRAN (R 4.3.0)
memoise 2.0.1 2021-11-26 [1] CRAN (R 4.3.0)
mime 0.12 2021-09-28 [1] CRAN (R 4.3.0)
miniUI 0.1.1.1 2018-05-18 [1] CRAN (R 4.3.1)
pkgbuild 1.4.3 2023-12-10 [1] CRAN (R 4.3.2)
pkgload 1.3.3 2023-09-22 [1] CRAN (R 4.3.2)
profvis 0.3.8 2023-05-02 [1] CRAN (R 4.3.1)
promises 1.2.1 2023-08-10 [1] CRAN (R 4.3.1)
purrr 1.0.2 2023-08-10 [1] CRAN (R 4.3.1)
R6 2.5.1 2021-08-19 [1] CRAN (R 4.3.0)
Rcpp 1.0.11 2023-07-06 [1] CRAN (R 4.3.1)
remotes 2.4.2.1 2023-07-18 [1] CRAN (R 4.3.1)
rlang 1.1.2 2023-11-04 [1] CRAN (R 4.3.2)
rmarkdown 2.25 2023-09-18 [1] CRAN (R 4.3.2)
sessioninfo 1.2.2 2021-12-06 [1] CRAN (R 4.3.1)
shiny 1.8.0 2023-11-17 [1] CRAN (R 4.3.2)
stringi 1.8.3 2023-12-11 [1] CRAN (R 4.3.2)
stringr 1.5.1 2023-11-14 [1] CRAN (R 4.3.2)
urlchecker 1.0.1 2021-11-30 [1] CRAN (R 4.3.1)
usethis 2.2.2 2023-07-06 [1] CRAN (R 4.3.1)
vctrs 0.6.5 2023-12-01 [1] CRAN (R 4.3.2)
xfun 0.41 2023-11-01 [1] CRAN (R 4.3.2)
xtable 1.8-4 2019-04-21 [1] CRAN (R 4.3.1)
yaml 2.3.8 2023-12-11 [1] CRAN (R 4.3.2)
[1] /home/coen/R/x86_64-pc-linux-gnu-library/4.3
[2] /usr/lib/R/library
──────────────────────────────────────────────────────────────────────────────
Werken met overheidsdata
1 Welkom
Dit is de website van Werken met overheidsdata.
Deze website is een levend document. Op dit moment is geen enkel hoofdstuk afgerond. Per hoofdstuk is duidelijk aangegeven wat de status van het hoofdstuk is.
1.1 Waarom deze website?
De afgelopen jaren hebben verschillende ontwikkeling een grote invloed gehad op het denken over en werken met overheidsdata, waaronder:
- De hoeveelheid - veelal publiek beschikbare - overheidsdata neemt steeds meer toe. Denk aan bestuurlijke stukken, geografische informatie en CBS-statistieken.
- De ontwikkeling van professionele, toegankelijke, open source analysetools is de afgelopen jaren enorm toegenomen. In het bijzonder RStudio en de zogenoemde tidyverse1 spelen hier een belangrijke ontwikkeling in.
Ondanks deze ontwikkelingen zijn er twee vragen die iedereen zich op een gegeven moment zal stellen:
- “Waar vind ik dan relevante (overheids)data? “ en
- “Hoe werk ik dan met die data?”.
Met deze website proberen we je bij deze vragen te helpen. We hebben zoveel mogelijk kennis en bronnen gebundeld, zodat jij een stuk makkelijker aan de slag kunt gaan met het zoeken, vinden, benaderen en analyseren van overheidsdata.
1.2 Voor wie is deze documentatie bedoeld?
Deze documentatie is voor iedereen die wil werken met voornamelijk Nederlandse overheidsdata, met een focus op openbaar beschikbare databronnen. Overigens zijn de meeste technieken ook te gebruiken op niet-overheidsdata.
Dus of je nu student, onderzoeker, analist of beleidsmedewerker bent: deze website kan het startpunt zijn van je volgende data-analyse.
1.3 Waarom alleen voorbeelden in R en niet in Python?
De belangrijkste reden is dat de auteurs voornamelijk met R werken. Er is te weinig kennis van Python om daar goede voorbeelden voor te maken.
Deze website is overigens geen volledige introductie in het programmeren met de programmeertaal R of in het R-ecosysteem. Wel worden er zoveel mogelijk instructies, tips en verwijzen naar andere bronnen gegeven om zo snel mogelijk aan de slag te kunnen. En als dat handig wordt er verwezen naar andere, zoveel mogelijk openbaar beschikbare bronnen.
Er zijn overigens genoeg hoofdstukken die voor iedereen interessant zijn. Voornamelijk de hoofdstukken over databronnen, versiebeheer en Quarto.
1.4 Hoe deze website georganiseerd is
De inhoud van deze website is opgedeeld in een aantal blokken met thema’s:
1.4.1 Blok 1: de basis
Het eerste blok bevat thema’s die als startpunt dienen:
1.4.1.1 Basiskennis
In dit deel wordt basiskennis behandeld. Er wordt ingegaan op de structuur van data, databronnen, het verschil tussen de programmeertaal R en deIDE RStudio en ethiek en privacy bij het werken met overheidsdata.
1.4.1.2 Projectmatig werken
Wanneer je gaat werken met data is het belangrijk dat je dit gestructureerd aanpakt, zeker als je met anderen samenwerkt. Daarom wordt in dit deel een basis gelegd voor een projectmatige aanpak van al je dataprojecten. Daarom wordt ingegaan op RStudio-projecten en versiebeheer met Git.
1.4.1.3 Basisvaardigheden
Nu je de nodige achtergrondkennis hebt en inzicht in projectmatig werken kun je aan de slag met basisvaardigheden. In dit deel worden verschillende algemene basisvaardigheden behandeld en kan als een praktische inleiding gezien worden in het daadwerkelijk werken met data. Zo wordt er ingegaan op het inlezen van data, het koppelen van datasets en hoe je kunt omgaan met variabelen die met tijd of datums te maken hebben. Ook wordt er een introductie gegeven in een belangrijk instrument in je toolbox als datawerker: functies. Als laatste wordt een introductie gegeven in het visualiseren van verschillende datatypen.
1.4.2 Blok 2: werken met data
Het tweede blok bevat thema’s die ingaan op het werken met specifieke soorten data:
1.4.2.1 Werken met CBS-data
Het CBS is een van de grootste leverancier van overheidsdata en verdient een eigen thema. Hieronder vallen voor nu de hoofdstukken over werken met open CBS-data en het werken met CBS-mircodata.
1.4.2.2 Werken met tekstdata
Onder dit thema vallen alle hoofdstukken en onderwerpen die gaan hoe je met tekstdata werkt en analyses uitvoert. Hoe haal je bijvoorbeeld nuttige informatie uit tekstbestanden?
1.4.2.3 Werken met geodata
1.4.3 Blok 3: presenteren
Op een gegeven moment wil je uitkomsten presenteren. Bijvoorbeeld met een mooie grafiek of een dashboard. Of een automatisch gegenereerd rapport. Al deze onderwerpen worden in het thema presenteren behandeld.
1.4.3.1 Blok 4: Praktijkvoorbeelden
Leuk al die theorie en voorbeelden, maar nu wil je waarschijnlijk wel eens zien hoe dit alles in de praktijk wordt toegepast. En dat is precies wat we hier doen! In een aantal hoofdstukken worden verschillende praktijkvoorbeelden uitgediept.
1.4.4 Bijlagen
In de bijlagen zijn een aantal onderwerpen uitgewerkt die niet direct met het werken met data te maken hebben. Bijvoorbeeld hoe de technische inrichting van R en RStudio binnen jouw organisatie gerealiseerd kan worden.
1.5 Randvoorwaarden
In sommige hoofdstukken of paragrafen wordt specifieke voorkennis verwacht. Als dat het geval is wordt er expliciet verwezen naar voornamelijk online bronnen die je kunt gebruiken om je kennisniveau bij te werken. Dat gebeurt op de volgende manier:
Om de voorbeelden in dit hoofdstuk goed te kunnen begrijpen heb je kennis nodig van het gebruik van het package dplyr. Lees hiervoor het hoofdstuk Data transformation uit het boek R for Data Science.
1.6 Colofon
Deze versie van de website is gebouwd op een systeem met de volgende specificaties:
De tidyverse wordt later in dit boek besproken.↩︎