Werken met overheidsdata

Publicatiedatum

29 januari 2023

1 Welkom

Dit is de website van Werken met overheidsdata.

Deze website is in ontwikkeling!

Deze website is een levend document. Op dit moment is geen enkel hoofdstuk afgerond. Per hoofdstuk is duidelijk aangegeven wat de status van het hoofdstuk is.

1.1 Waarom deze website?

De afgelopen jaren hebben verschillende ontwikkeling een grote invloed gehad op het denken over en werken met overheidsdata, waaronder:

  1. De hoeveelheid - veelal publiek beschikbare - overheidsdata neemt steeds meer toe. Denk aan bestuurlijke stukken, geografische informatie en CBS-statistieken.
  2. De ontwikkeling van professionele, toegankelijke, open source analysetools is de afgelopen jaren enorm toegenomen. In het bijzonder RStudio en de zogenoemde tidyverse1 spelen hier een belangrijke ontwikkeling in.

Ondanks deze ontwikkelingen zijn er twee vragen die iedereen zich op een gegeven moment zal stellen:

  1. Waar vind ik dan relevante (overheids)data? “ en
  2. “Hoe werk ik dan met die data?”.

Met deze website proberen we je bij deze vragen te helpen. We hebben zoveel mogelijk kennis en bronnen gebundeld, zodat jij een stuk makkelijker aan de slag kunt gaan met het zoeken, vinden, benaderen en analyseren van overheidsdata.

1.2 Voor wie is deze documentatie bedoeld?

Deze documentatie is voor iedereen die wil werken met voornamelijk Nederlandse overheidsdata, met een focus op openbaar beschikbare databronnen. Overigens zijn de meeste technieken ook te gebruiken op niet-overheidsdata.

Dus of je nu student, onderzoeker, analist of beleidsmedewerker bent: deze website kan het startpunt zijn van je volgende data-analyse.

1.3 Waarom alleen voorbeelden in R en niet in Python?

De belangrijkste reden is dat de auteurs voornamelijk met R werken. Er is te weinig kennis van Python om daar goede voorbeelden voor te maken.

Deze website is overigens geen volledige introductie in het programmeren met de programmeertaal R of in het R-ecosysteem. Wel worden er zoveel mogelijk instructies, tips en verwijzen naar andere bronnen gegeven om zo snel mogelijk aan de slag te kunnen. En als dat handig wordt er verwezen naar andere, zoveel mogelijk openbaar beschikbare bronnen.

Er zijn overigens genoeg hoofdstukken die voor iedereen interessant zijn. Voornamelijk de hoofdstukken over databronnen, versiebeheer en Quarto.

1.4 Hoe deze website georganiseerd is

De inhoud van deze website is opgedeeld in een aantal blokken met thema’s:

1.4.1 Blok 1: de basis

Het eerste blok bevat thema’s die als startpunt dienen:

1.4.1.1 Basiskennis

In dit deel wordt basiskennis behandeld. Er wordt ingegaan op de structuur van data, databronnen, het verschil tussen de programmeertaal R en deIDE RStudio en ethiek en privacy bij het werken met overheidsdata.

1.4.1.2 Projectmatig werken

Wanneer je gaat werken met data is het belangrijk dat je dit gestructureerd aanpakt, zeker als je met anderen samenwerkt. Daarom wordt in dit deel een basis gelegd voor een projectmatige aanpak van al je dataprojecten. Daarom wordt ingegaan op RStudio-projecten en versiebeheer met Git.

1.4.1.3 Basisvaardigheden

Nu je de nodige achtergrondkennis hebt en inzicht in projectmatig werken kun je aan de slag met basisvaardigheden. In dit deel worden verschillende algemene basisvaardigheden behandeld en kan als een praktische inleiding gezien worden in het daadwerkelijk werken met data. Zo wordt er ingegaan op het inlezen van data, het koppelen van datasets en hoe je kunt omgaan met variabelen die met tijd of datums te maken hebben. Ook wordt er een introductie gegeven in een belangrijk instrument in je toolbox als datawerker: functies. Als laatste wordt een introductie gegeven in het visualiseren van verschillende datatypen.

1.4.2 Blok 2: werken met data

Het tweede blok bevat thema’s die ingaan op het werken met specifieke soorten data:

1.4.2.1 Werken met CBS-data

Het CBS is een van de grootste leverancier van overheidsdata en verdient een eigen thema. Hieronder vallen voor nu de hoofdstukken over werken met open CBS-data en het werken met CBS-mircodata.

1.4.2.2 Werken met tekstdata

Onder dit thema vallen alle hoofdstukken en onderwerpen die gaan hoe je met tekstdata werkt en analyses uitvoert. Hoe haal je bijvoorbeeld nuttige informatie uit tekstbestanden?

1.4.2.3 Werken met geodata

1.4.3 Blok 3: presenteren

Op een gegeven moment wil je uitkomsten presenteren. Bijvoorbeeld met een mooie grafiek of een dashboard. Of een automatisch gegenereerd rapport. Al deze onderwerpen worden in het thema presenteren behandeld.

1.4.3.1 Blok 4: Praktijkvoorbeelden

Leuk al die theorie en voorbeelden, maar nu wil je waarschijnlijk wel eens zien hoe dit alles in de praktijk wordt toegepast. En dat is precies wat we hier doen! In een aantal hoofdstukken worden verschillende praktijkvoorbeelden uitgediept.

1.4.4 Bijlagen

In de bijlagen zijn een aantal onderwerpen uitgewerkt die niet direct met het werken met data te maken hebben. Bijvoorbeeld hoe de technische inrichting van R en RStudio binnen jouw organisatie gerealiseerd kan worden.

1.5 Randvoorwaarden

In sommige hoofdstukken of paragrafen wordt specifieke voorkennis verwacht. Als dat het geval is wordt er expliciet verwezen naar voornamelijk online bronnen die je kunt gebruiken om je kennisniveau bij te werken. Dat gebeurt op de volgende manier:

Benodigde voorkennis

Om de voorbeelden in dit hoofdstuk goed te kunnen begrijpen heb je kennis nodig van het gebruik van het package dplyr. Lees hiervoor het hoofdstuk Data transformation uit het boek R for Data Science.

1.6 Colofon

Deze versie van de website is gebouwd op een systeem met de volgende specificaties:

─ Session info ───────────────────────────────────────────────────────────────
 setting  value
 version  R version 4.3.2 (2023-10-31)
 os       EndeavourOS
 system   x86_64, linux-gnu
 ui       X11
 language (EN)
 collate  nl_NL.UTF-8
 ctype    nl_NL.UTF-8
 tz       Europe/Amsterdam
 date     2023-12-31
 pandoc   3.1.11 @ /usr/bin/ (via rmarkdown)

─ Packages ───────────────────────────────────────────────────────────────────
 package     * version date (UTC) lib source
 cachem        1.0.8   2023-05-01 [1] CRAN (R 4.3.0)
 cli           3.6.2   2023-12-11 [1] CRAN (R 4.3.2)
 devtools      2.4.5   2022-10-11 [1] CRAN (R 4.3.1)
 digest        0.6.33  2023-07-07 [1] CRAN (R 4.3.1)
 ellipsis      0.3.2   2021-04-29 [1] CRAN (R 4.3.0)
 evaluate      0.23    2023-11-01 [1] CRAN (R 4.3.2)
 fastmap       1.1.1   2023-02-24 [1] CRAN (R 4.3.0)
 fs            1.6.3   2023-07-20 [1] CRAN (R 4.3.1)
 glue          1.6.2   2022-02-24 [1] CRAN (R 4.3.0)
 htmltools     0.5.7   2023-11-03 [1] CRAN (R 4.3.2)
 htmlwidgets   1.6.4   2023-12-06 [1] CRAN (R 4.3.2)
 httpuv        1.6.13  2023-12-06 [1] CRAN (R 4.3.2)
 jsonlite      1.8.8   2023-12-04 [1] CRAN (R 4.3.2)
 knitr         1.45    2023-10-30 [1] CRAN (R 4.3.2)
 later         1.3.2   2023-12-06 [1] CRAN (R 4.3.2)
 lifecycle     1.0.4   2023-11-07 [1] CRAN (R 4.3.2)
 magrittr      2.0.3   2022-03-30 [1] CRAN (R 4.3.0)
 memoise       2.0.1   2021-11-26 [1] CRAN (R 4.3.0)
 mime          0.12    2021-09-28 [1] CRAN (R 4.3.0)
 miniUI        0.1.1.1 2018-05-18 [1] CRAN (R 4.3.1)
 pkgbuild      1.4.3   2023-12-10 [1] CRAN (R 4.3.2)
 pkgload       1.3.3   2023-09-22 [1] CRAN (R 4.3.2)
 profvis       0.3.8   2023-05-02 [1] CRAN (R 4.3.1)
 promises      1.2.1   2023-08-10 [1] CRAN (R 4.3.1)
 purrr         1.0.2   2023-08-10 [1] CRAN (R 4.3.1)
 R6            2.5.1   2021-08-19 [1] CRAN (R 4.3.0)
 Rcpp          1.0.11  2023-07-06 [1] CRAN (R 4.3.1)
 remotes       2.4.2.1 2023-07-18 [1] CRAN (R 4.3.1)
 rlang         1.1.2   2023-11-04 [1] CRAN (R 4.3.2)
 rmarkdown     2.25    2023-09-18 [1] CRAN (R 4.3.2)
 sessioninfo   1.2.2   2021-12-06 [1] CRAN (R 4.3.1)
 shiny         1.8.0   2023-11-17 [1] CRAN (R 4.3.2)
 stringi       1.8.3   2023-12-11 [1] CRAN (R 4.3.2)
 stringr       1.5.1   2023-11-14 [1] CRAN (R 4.3.2)
 urlchecker    1.0.1   2021-11-30 [1] CRAN (R 4.3.1)
 usethis       2.2.2   2023-07-06 [1] CRAN (R 4.3.1)
 vctrs         0.6.5   2023-12-01 [1] CRAN (R 4.3.2)
 xfun          0.41    2023-11-01 [1] CRAN (R 4.3.2)
 xtable        1.8-4   2019-04-21 [1] CRAN (R 4.3.1)
 yaml          2.3.8   2023-12-11 [1] CRAN (R 4.3.2)

 [1] /home/coen/R/x86_64-pc-linux-gnu-library/4.3
 [2] /usr/lib/R/library

──────────────────────────────────────────────────────────────────────────────

  1. De tidyverse wordt later in dit boek besproken.↩︎