Werken met tekstdata

Let op: deze pagina is een conceptversie!

De inhoud van deze pagina is nog in ontwikkeling maar kan al wel gebruikt worden.

Introductie

De overheid produceert veel tekst in bijvoorbeeld brieven, nota’s, beleidsstukken en andere tekstdocumenten. Er bestaan geen exacte aantallen, maar alleen al in de gemeente Den Haag werden in 2022 door het college 1531 documenten aan de gemeenteraad gestuurd (exclusief raadsvragen, moties en amendementen), waarvan het overgrote deel tekstbestanden (Gemeente Den Haag, z.d.).

In al die verschillende soorten tekstbestanden is veel informatie te vinden. In een kwalitatief onderzoek zou je deze teksten lezen en eventueel met kwalitatieve analysesoftware analyseren.¹ Maar ook met statistische analysesoftware als R kun je hele interessante analyses op tekstdata doen.

In dit deel gebruiken we de term tekstdata grotendeels als synoniem voor ongestructureerde data. Hiermee wordt data bedoeld die niet een vooraf gedefinieerd datamodel hebben. In gewone-mensen-taal betekent dit dat de data elke keer een andere betekenis kan hebben en daarom moeilijk door een programma te interpreteren is.

Een voorbeeld van ongestructureerde tekstdata zijn berichten op X (voorheen Twitter). Er is interpretatie nodig om de inhoud te kunnen duiden. Een ander voorbeeld zijn verslagen van commissie- of gemeenteraadsvergaderingen. Daartegenover staat gestructureerde tekstdata. Een voorbeeld is de ledenlijst van een vereniging met een variabele waarin de achternaam van een verenigingslid staat.

Doelen van dit deel

Na het doornemen van dit deel:

weet je wat tekstdata zijn;
kun je tekstdata uit de meestgebruikte bestandsformaten inlezen;
kun je een aantal veelgebruikte analyes toepassen op tekstdata, namelijk:
- woordfrequenties;
- TF/IDF;
- sentiementanalyse;
- topic modeling

Opbouw van dit deel

Het deel volgt de stappen die je tijdens een tekstanalyse ook zult doorlopen. We beginnen met het inlezen van de twee meestgebruikte bestandstypen: Word-documenten en PDF-bestanden. We gaan in op de belangrijkste eigenschappen, de voor- en nadelen. Ook laten we zien hoe je meerdere bestanden in één keer kunt inlezen.

Daarna gaan we in op het prepareren van tekstdata. Hoe bewerkt je de ruwe tekst zodat je er analyses op kunt doen?

Vervolgens behandelen we verschillende soorten analyses die je met tekstdata kunt doen. Dit gaat van simpele beschrijvende statistieken tot de meer ingewikkelde technieken als topic modeling.

Als laatste worden een aantal een aantal veelvoorkomende fouten en tips behandeld.

Veel voorkomende fouten en tips

Meer lezen

Text Mining With R (David Robinson, 2022)

Bibliografie

David Robinson, J. S. (2022). Text Mining with R. https://www.tidytextmining.com/

Gemeente Den Haag. (z.d.). Overige bestuurlijke stukken Gemeente Den Haag. https://denhaag.raadsinformatie.nl/modules/13/Commissiearchief/view?month=all&year=2022&week=all&module_filter%5Bselect%5D%5B52%5D=none&module_filter%5Bselect%5D%5B69%5D=none&module_filter%5Bselect%5D%5B51%5D=none&module_filter%5Brange%5D%5B7%5D%5Bdata_type%5D=datetime&module_filter%5Brange%5D%5B47%5D%5Bdata_type%5D=datetime&section=

Je hebt verschillende statistische analysesoftware. Bekende voorbeelden zijn ATLAS.ti en NVivo.↩︎