class: inverse, center, middle # Statistiek 1a ## Week 1 ### donderdag 12 september 2024 .my-rug-logo[] .bottomleft[ Gert Stulp ] --- # Huishoudelijke mededeling .red[Huiswerkopgaven] hoeven niet ingeleverd te worden. .red[Practica] dienen ingeleverd te worden aan het einde van de sessie. .red[Uitwerkingen] van week 1 staan online. --- class: left, top # Soorten variabelen .pull-left[ ### .red[kwantitatief] * De scores zijn .red[getallen]. * Wiskundige bewerkingen zinvol (optellen, delen, ...). * .red[Discreet] of .red[continu]. #### Voorbeelden: *Inkomen Tentamencijfers Aantal tweets Trump Gewicht * ] .my-logo[] .my-logo-text[2.1] -- .pull-right[ ### .red[kwalitatief (categorisch)] * De scores zijn .red[labels]. * De getalsinformatie heeft geen getalsbetekenis. * Altijd .red[discreet]. #### Voorbeelden: *Favoriete politieke partij In bezit van auto Haarkleur Wijn- of bierdrinker * ] --- class: left, top # Soorten variabelen .pull-left[ ### .red[continu] * Alle waarden op een .red[interval]. * Tussen ieder paar scores ligt altijd nog tenminstens 1 andere mogelijke score #### Voorbeelden: *Inkomen Gewicht * ] .my-logo[] .my-logo-text[2.1] -- .pull-right[ ### .red[discreet] * Beperkt aantal waarden * Vaste meeteenheid die niet verder onderverdeeld kan worden. #### Voorbeelden: *Tentamencijfers (afgerond) Aantal tweets Trump * ] -- Het onderscheid tussen .red[continu] en .red[discreet] is in de praktijk vager dan in theorie: <p line-height: 0.7;> </p> * Metingen zijn altijd discreet omdat ieder meetinstrument een maximale precisie heeft (bijvoorbeeld een weegschaal op 0.1 kilogram nauwkeurig). * Als bij continue schalen een beperkt aantal mogelijkheden voorkomen, gebruiken we ‘discrete technieken’. --- class: left, top # Meetniveaus .large[Het .red[meetniveau] van een variabele geeft aan hoeveel getalsinformatie in de scores van een variabele je ‘serieus mag nemen’] <p line-height: 0.25;> </p> .row[ .left-column[ .red[nominaal:] ] .right-column-high[ gevallen hebben verschillende scores .small[*Jan heeft een hond, en Piet een kat*] ] ] .my-logo[] .my-logo-text[2.1] -- .row[ .left-column[ .red[ordinaal:] ] .right-column-high[ gevallen kunnen gerangschikt worden op scores .small[*Jan drinkt vaak Bier, en Piet soms*] ] ] -- .row[ .left-column[ .red[interval:] ] .right-column-high[ het verschil tussen gevallen a&b is 2× verschil c&d .small[*Jan heeft 3 IQ-punten meer dan zijn broer, en Piet 6; 2x zoveel dus*] ] ] -- .row[ .left-column[ .red[ratio:] ] .right-column-high[ geval a is 2× zo (vul in) als geval b .small[*Jan verdient 2x minder dan Piet*] ] ] --- class: left, top # Meetniveaus .pull-left[ ### .red[nominaal] Latin: *nōmen* ("name"). #### Voorbeelden: *Beroep Geslacht * ] .pull-right[ ### .red[ordinaal] Latin: *ordo* ("order"). #### Voorbeelden: *Politieke oriëntatie Schooldiploma * ] <br > Bij een .red[ordinaal] meetniveau zit er een bepaalde volgorde in de categorieën. Vaak is er bij bij een .red[nominaal] meetniveau wel een volgorde te verzinnen. Bijvoorbeeld beroep: "blue collar", "white collar". .my-logo[] .my-logo-text[2.1] --- class: left, top # Meetniveaus .pull-left[ ### .red[interval] #### Voorbeelden: *IQ Temperatuur (°C) Geboortejaar * ] .pull-right[ ### .red[ratio] #### Voorbeelden: *Lichaamslengte Temperatuur (K) Studiepunten * ] <br > Het fundamentele verschil tussen het .red[interval] en .red[ratio] meetniveau is dat laatstgenoemde een absoluut nulpunt heeft waarbij de 0 "afwezigheid van de eigenschap" betekent. 0 studiepunten betekent de afwezigheid van studiepunten; 0 °C betekent niet de afwezigheid van warmte, maar minder warmte dan 1 °C. .my-logo[] .my-logo-text[2.1] --- class: left, top # Soorten variabelen en meetniveaus <img src="images/catkwant.png" weight="100%"> --- class: inverse, left, top # Oefenen met meetniveaus --- class: inverse, left, top # aantal bananen per tros -- ### .center[kwantitatief, discreet, ratio] --- class: inverse, left, top # lichaamslengte met meetlint in centimeters -- ### .center[kwantitatief, discreet, ratio] --- class: inverse, left, top # aantal huwelijken in een jaar -- ### .center[kwantitatief, discreet, ratio] --- class: inverse, left, top # toename aantal huwelijken in % -- ### .center[kwantitatief, continu, interval] --- class: inverse, left, top # favoriete dier -- ### .center[categorisch, discreet, nominaal] -- <img src="images/redpanda.gif" width="75%"> --- class: inverse, left, top # provincie waarin je woont -- ### .center[categorisch, discreet, nominaal] --- class: inverse, left, top # seksuele geaardheid -- ### .center[categorisch, discreet, nominaal] --- class: inverse, left, top # geboortejaar -- ### .center[kwantitatief, discreet, interval] --- class: inverse, left, top # wat is het ideale aantal kinderen voor een doorsnee Nederlands gezin? -- ### .center[kwantitatief, discreet, ratio] -- <!-- --> --- class: left, top # Bias (vertekening) Enkele voorbeelden van .red[bias] in steekproeven zijn: .row[ .left-column[ .red[sampling bias:] ] .right-column-high[ niet iedereen heeft een gelijke kans om in de steekproef te komen. Voorbeelden: *.red[volunteer sampling], .red[undercoverage], .red[overcoverage]* ] ] .my-logo[] .my-logo-text[2.3] -- .row[ .left-column[ .red[response bias:] ] .right-column-high[ respondent geeft onjuist antwoord. Voorbeelden: *liegen, ambigue vragen*.] ] -- .row[ .left-column[ .red[nonresponse bias:] ] .right-column-high[ respondent wordt niet bereikt, wil niet meewerken, of beantwoordt niet alle vragen ] ] --- class: left, top # Verschil sampling en (non)-response bias Bij .red[sampling bias] gaat het om fouten die betrekking hebben op de manier waarop de *.red[steekproef]* is getrokken. Er zullen dus mensen in de steekproef ontbreken of overgerepresenteerd zijn. **Voorbeelden**: telefonische interviews afnemen tussen 9-17 uur, steekproef studenten in de UB .my-logo[] .my-logo-text[2.3] -- Bij .red[response/non-response bias] gaat om fouten die betrekking hebben op het niet of foutief beantwoorden van de vragen in de *.red[vragenlijst]*, maar de steekproef kan wel correct getrokken zijn. -- Bij .red[response bias] is een respondent *wel* bereikt voor het onderzoek, maar liegt hij of zij tijdens het beantwoorden van de vragen of beantwoordt hij of zij de vragen verkeerd door ambiguïteit of de volgorde van de vragen. **Voorbeelden**: liegen over aantal sekspartners. -- Bij de .red[non-response bias] wordt de respondent *niet* bereikt wordt of deze wil *niet* mee doen, of deze slaat sommige vragen bewust over. **Voorbeelden**: inkomen niet opgeven, geen zin meer in de rest van de vragenlijst. --- class: left, top # Sampling methoden De manier waarop een steekproef wordt getrokken heeft grote invloed op het vermijden van .red[bias] en hoe (goed) je vanuit de steekproef conclusies over de populatie kan afleiden. Er zijn diverse .red[sampling methoden]. .row[ .left-column[ .red[simple random sample:] ] .right-column-high[ iedereen heeft gelijke kans op deelname. Voorbeeld: enquête onder studenten op basis van studentnummer. ] ] .my-logo[] .my-logo-text[2.4] -- .row[ .left-column[ .red[cluster sampling:] ] .right-column-high[ deel de populatie op in verschillende "clusters" en trek een SRS van de clusters. Efficiënter. ] ] -- .row[ .left-column[ .red[stratified sampling:] ] .right-column-high[ deel de populatie in groepen van ‘soortgelijke’ individuen ("strata") en trek een SRS binnen elke groep. Voorbeeld: onderzoek naar etnische minderheden. ] ] --- class: left, top # Sampling methoden 2 vormen van .red[stratified sampling]: .my-logo[] .my-logo-text[2.4] .row[ .left-column[ .red[proportional stratified sampling:] ] .right-column-high[ deel de populatie op in verschillende "strata" en trek een SRS binnen de strata De grootte van de SRS is proportioneel ten aanzien van de grootte van die strata in de populatie. .small[*Voorbeeld*: 20% van de studenten aan RuG zijn 'internationaal'. Trek een steekproef van 10 internationale en 40 Nederlandse studenten] ] ] .row[ .left-column[ .red[disproportional stratified sampling:] ] .right-column-high[ deel de populatie op in verschillende "strata" en trek een SRS binnen de strata. De grootte van de SRS wordt zo bepaald dat er van beide strata goede schattingen gemaakt kunnen worden. .small[*Voorbeeld*: 100 Nederlandse en 100 internationale studenten] ] ] --- class: left, top # Statistiek in de sociale wetenschappen .center[<img src="images/Scheme.005.png" width="100%">] --- class: inverse, top, left # Oefenen met biases --- class: inverse, top, left # de docent vraagt persoonlijk aan alle studenten wat ze van het vak vinden -- ### .center[response bias] --- class: inverse, top, left # een onderzoeker geïnteresseerd in super-marktgedrag ondervraagt mensen in de Aldi -- ### .center[sampling bias] --- class: inverse, top, left # een survey vraagt naar het inkomen van de respondent -- ### .center[response bias / nonresponse bias] --- class: inverse, top, left # hoeveel auto-reparaties heb je gedaan in het afgelopen jaar? -- ### .center[response bias] --- class: inverse, top, left # je vraagt aan al je vrienden of ze een vragenlijst willen invullen -- ### .center[sampling bias] --- class: inverse, top, left # internetonderzoek met als eerste vraag "vind je vragenlijsten invullen leuk"? -- ### .center[nonresponse bias] --- class: inverse, top, left # een streng-gelovige onderzoeker vraagt naar ideeën over abortus -- ### .center[response bias / nonresponse bias] --- class: inverse, top, left # je vraagt studenten om direct na het tentamen een evaluatieformulier in te vullen -- ### .center[sampling bias / response bias / nonresponse bias] --- class:inverse, center, middle ## http://isitweekendyet.com/