Het proces van data analyse bestaat als eerste stap altijd uit het opschonen van de data. Dit proces is belangrijk omdat zonder nauwkeurige data alle andere processen foutief of ondoeltreffend zouden zijn. Het Tidyverse package biedt een aantal hulpmiddelen om deze processen te vergemakkelijken.
Je hebt, als je een tijdje met R gewerkt hebt, vast wel gehoord van tidyverse. In deze post zullen we behandelen wat tidyverse precies is en uit welke packages het is samengesteld.
Tidyverse is een verzameling pakketten beschikbaar in R en is gericht op het manipuleren, importeren, exploreren en visualiseren van data, en wordt veel gebruikt in de gegevens wetenschap. Het gebruik van tidyverse vergemakkelijkt analytisch werk en helpt om reproduceerbaar werk te maken.
We gebruiken in dit blog de software R. Heb je R nog niet geïnstalleerd, volg dan onze deze pagina over R installeren
Stap voor stap zal in deze blog het volgende behandeld worden:
- Wat is tidyverse?
- Voor- en nadelen van het gebruik van tidyverse
- Installeren van tidyverse
- Verschillende tidyverse packages
- Basispakketten
- Geavanceerde Packages
- Andere pakketten
- Data importeren
- Data manipuleren
- Hoe leer je ze allemaal?
- Conclusie
Wat is Tidyverse?
Tidyverse is een set R-packages ontworpen voor data science. Dit betekent dat het helpt bij het hele proces van importeren, transformeren, visualiseren, modelleren en communiceren van alle informatie die we normaal gebruiken in data science processen.
Het voordeel van deze pakketten is dat zij gemeenschappelijke namen en structuren hebben, zoals bijvoorbeeld dat alle namen kleine letters zijn of dat ze de underscore gebruiken om functies aan te roepen. Dit zorgt voor onderlinge consistentie in tussen de pakketten, waardoor ze gemakkelijker te gebruiken zijn.
Deze R-packages worden onderhouden door de R-community en de makers van RStudio.
Wij raden aan om altijd in een R Script te werken. Zo kun je goed elke stap bijhouden. Begrijp je niet goed wat we hiermee bedoelen, lees dan eerst onze handleiding over werken met R in RStudio.
Voor- en nadelen van het gebruik van tidyverse
Het wordt gehaat door sommigen en geliefd door anderen.
Enerzijds kunnen gegevens gemakkelijk worden geanalyseerd en gemanipuleerd. Een nadeel van tidyverse is dat het de gebruikelijke manier van programmeren in R weglaat. Dus, als je een gebruiker bent die al met R werkt sinds lang voor tidyverse, zou je deze verandering een beetje abrupt kunnen vinden.
Een voorbeeld is het gebruik van "pipes" om verschillende functies te verbinden of in het geval van dplyr om te filteren en veel bewerkingen op de gegevens uit te voeren.
Installeren van tidyverse
Het installeren van tidyverse is net zo eenvoudig als voor andere pakketten. We gebruiken de install.packages functie als volgt:
install.packages(“tidyverse”)
tidyverse pakketten
Tidyverse heeft acht hoofdpackages die ik in twee delen heb verdeeld, de basispackages en de geavanceerde packages.
Basispackages
Ggplot2
Dplyr
Tidyr
readr
Geavanceerde Packages
Purrr
Tibble
Stringr
forcats
Basispackages
ggplot2
Dit is een package voor visualisaties. Zo kan je er bijvoorbeeld simpel een histogram mee maken.
dplyr
Dit pakket helpt bij veelvoorkomende problemen met datamanipulatie in een taal die gebaseerd is op acties op de gegevens zelf. Dit helpt je dingen te doen zoals kolommen muteren of nieuwe variabelen creëren, selecteren, filteren of groeperen van de variabelen die we in onze tabellen hebben. Lees hier meer over dplyr.
tidyr
Dit pakket helpt om de gegevens te transformeren om ze efficiënter of netter te maken. Wat dit betekent is dat we in staat zullen zijn om de rijen en kolommen op een efficiënte manier te transformeren zodat de gegevens aan deze drie voorwaarden voldoen
- dat elke kolom een variabele is
- dat elke rij een observatie is en
- dat elke cel een waarde is
Dit helpt veel bij het modelleren en plotten van de gegevens.
readr
Een vierde pakket dat Tidyverse biedt is readr. Het wordt gebruikt om zogenaamde flat files, zoals csv bestanden, te lezen.
Geavanceerde Packages
purrr
Dit pakket maakt het gemakkelijk om met vectoren en functies te werken in een consistente taal die nauw verwant is aan wat functioneel programmeren zou zijn.
tibble
Een Tibble is een transformatie van het dataframe. Dit wordt soms gebruikt bij het laden van gegevens met readr. Het voordeel van dit pakket is dat het gebruik maakt van de goede dingen van dataframes en enkele opties verbetert die in vorige versies werden afgeschreven.
stringr
Dit is een pakket voor het werken met tekst parsing en string manipulatie in cases. Bijvoorbeeld wanneer we een heleboel tweets downloaden en we willen zoeken naar bepaalde informatie of wanneer we willen zoeken binnen de url van de pagina's en alle tekst van de html.
forcats
Dit is een speciaal pakket voor het omgaan met factoren en categorische gegevens.
Andere Packages
Data importeren
- readxl (Excel)
- haven (SPSS, Stata, SAS)
Data manipulatie
- lubridate (data en tijden)
- hms (voor uren, minuten, seconden)
- blob (voor binaire gegevens)
Hoe leer je ze allemaal?
Wij raden je aan dat je je hier niet druk over hoeft te maken. In principe is onze aanbeveling om te beginnen met de basis, dat wil zeggen dat als eerste stap je de vier belangrijkste pakketten zal moeten leren. Dit zijn ggplot2, dplyr, tidyr en readr. Dit zal je een basis geven waarmee je kunt beginnen met elke vorm van analyse of datamanipulatie en tegen de tijd dat je echt een wat geavanceerder pakket wilt leren (zoals purrr of forcats) zul je al zoveel ervaring hebben opgedaan dat je dit vrij simpel leert.
Conclusie
Begin met de basis en ga dan verder naargelang je behoeften.
Wil jij goed leren werken in R? Tijdens onze Opleiding R leer je alles wat je nodig hebt om zelfstandig analyses uit te voeren in R.
Terry is afgestudeerd aan de TU Delft als ingenieur en heeft zich in zijn carrière beziggehouden met het optimaal benutten van data om bedrijfsprestaties te verbeteren. Dit heeft hij gedaan in verschillende rollen, als software ontwikkelaar en als data scientist.