Chapter 2 Werken met R
2.1 R
R is een vrij beschikbare taal en omgeving voor statische berekeningen en grafische afbeeldingen die een breed scala aan statistische en grafische technieken biedt. Ten opzichte van andere statistische programma’s heeft R het voordeel dat het a) gratis is, b) het extreem flexibel is, c) het doorgaans de meest up-to-date en nieuwe statistische technieken bevat en d) het verbazingwekkende visualisatiemogelijkheden heeft. Het nadeel is dat R tijd kost om te leren is, R is namelijk gebaseerd op commando’s en niet op het klikken op functies vanuit een menu. Dit betekent dat je R in commando’s moet vertellen wat het moet doen en hiervoor wordt de R-taal gebruikt. Ondanks dat het wat tijd kost om R te leren, is het leren van R zeker de moeite waard en is het voor toekomstig onderzoek een fijne vaardigheid om te kunnen.
Zoals eerder benoemd is R een gratis te downloaden programma, dat kan via de volgende site: https://www.r-project.org/.
2.2 RStudio
Nadat R gedownload is, is het mogelijk om in de R omgeving te werken. Echter, het werken in R studio is een stuk gemakkelijker. Ook R studio is gratis te downloaden. Dit kan via: https://posit.co/download/rstudio-desktop/. LET OP dat je ook R gedownload moet hebben om R studio te gebruiken.
2.2.1 RStudio omgeving
Wanneer R studio geopend wordt, zal de omgeving er als volgt uitzien. Naast deze drie schermen, is nog een vierde scherm nuttig. Dit scherm heet een script en is te verkrijgen door op het papiertje met een plus teken erbij te klikken onder file, daarna klik je op R Script. Het R Script kan ook geopend worden door ctrl+shift+n
.
Wanneer het R script geopend is, ziet de omgeving er zoals de afbeelding hieronder uit. Het scherm linksboven is dus het R Script en hierin kan je de commando’s geven die je wilt dat R uitvoert. Nadat je een aantal commando’s gegeven hebt, is het R script makkelijk op te slaan zodat het werk in de toekomst herhaald kan worden. Binnen het R script kan je orde aanbrengen door informatie over de commando’s te plaatsen na een #
. Deze informatie neemt R niet mee voor het uitvoeren van de commando’s. De uitkomsten van de commando’s die gegeven worden, komen in het scherm linksonder bij Console. Hier komt dus de tekstuele output van je gegeven commando’s. De visuele output wordt weergeven in het scherm rechtsonder bij plots. In het scherm rechtsonder zijn ook de bestanden die in de zogenoemde Working Directory zitten te zien bij Files. Bij het kopje Packages is te zien welke packages er mogelijk zijn en welke er tijdens de sessie gebruikt kunnen worden. Tot slot bevat het scherm rechtsonder de help functie en een functie om dingen op het internet op te zoeken. In het scherm rechtsboven wordt bij environment je data weergeven.
2.3 Rprojecten
Het is handig om voor ieder project een Rproject aan te maken. Een Rproject is een map met alle relevante R-bestanden en datasets die nodig zijn voor het project dat je doet. Door alles in een project bij elkaar te plaatsen, raak je nooit relevante bestanden kwijt en kan je makkelijk verder gaan met een project nadat R afgesloten is.
2.4 Packages
R werkt met packages, wat betekent dat bepaalde functies in R in een package zitten en dat die functies het ook pas doen als het package geïnstalleerd is. Als je een package wil gebruiken tijdens een R-sessie, moet je R ook vertellen dat je het pakket wilt gebruiken. Het installeren van een package moet één keer, het vertellen dat je een pakket wilt gebruiken moet tijdens iedere nieuwe sessie.
Het tidyverse
-package is een collectie van een aantal bruikbare packages. Voor het downloaden van dit package geef je het volgende commando:
Om R te laten weten dat je dit package wilt gebruiken tijdens deze sessie geef je het volgende commando
## ── Attaching core tidyverse packages ─── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.4
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ ggplot2 3.4.4 ✔ tibble 3.2.1
## ✔ lubridate 1.9.3 ✔ tidyr 1.3.0
## ✔ purrr 1.0.2
## ── Conflicts ───────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
2.5 Bestanden openen
Voordat je een bestand gaat openen, is het belangrijk dat het bestand in de map van je project staat en je het juiste project geopend hebt. Indien je niet met een project werkt, is het bekangrijk dat de working directory
goed staat. De working directory geeft de omgeving van bestanden die R kan zien aan. De working directory kan bepaald worden via de klikfuncties sessions -> Set Working Directory -> Choose Directory in de balk bovenaan in de R sessie. Dit kan ook door de ctrl+shift+h
.
Door <-
voor de read-functie te zetten, kan je het bestand onder een eigen bedachte naam opslaan in R. Het bestand wordt dan zichtbaar in de environment rechtsboven.
LET OP Het is heel belangrijk dat de naam van het bestand dat je tussen aanhalingstekens zet precies overeenkomt met de naam hoe het bestand in je project map/ working directory staat. Als je bijvoorbeeld een bestand 2x hebt gedownload en je de versie met (1) achter de bestandnaam in je projectmap plaatst, is het dus belangrijk dat de (1) ook tussen aangalingstekens in je code staat.
SPSS bestanden
Voor het openen van SPSS bestanden is het haven
package nodig, deze moet dus eerst geïnstalleerd en geopend worden.
Excel bestanden
Voor het openen van Excel bestanden is het readxl
package nodig, deze moet dus eerst geïnstalleerd en geopend worden.
2.6 De helpfunctie
R heeft een uitgebreid helpmenu. Zo kan er gezocht worden naar functies en procedures. De helpfunctie werkt door een vragenteken gevolgd door een trefwoord/functie/opdracht die bekend is in R. Dat ziet er dus uit als ?trefwoord
. Een alternatieve manier is door help(trefwoord)
. Wanneer R aangeeft het gevraagde trefwoord niet te kennen, kan een dubbel vraagteken gevolgd door een trefwoord/functie/opdracht opgevraagd worden. Dit ziet eruit als??trefwoord
. Met deze functie wordt het trefwoord in alle R-bibliotheken of pakketten gezocht. Het helpmenu opent zich rechtsonder.