Inleiding (bron : wikipedia)
De Chi kwadraat test gaat na of waargenomen aantallen systematisch afwijken van verwachte (of gemiddelde) aantallen, en berekent daartoe het totaal van de gewogen kwadratische afwijkingen tussen deze aantallen. Een chi-kwadraattoets wordt veel gebruikt om kruistabellen te analyseren. Omdat er geen aannamen over gemiddelden of over de populatie worden gedaan is dit een parametervrije toets. Ook het meetniveau is niet van belang omdat er alleen naar aantallen wordt gekeken. De chi-kwadraattoets vindt toepassing als:
- aanpassingstoets, waarbij getoetst wordt of de gevonden data passen bij een veronderstelde verdeling;
- onafhankelijkheidstoets, waarbij getoetst wordt of de simultane verdeling waaruit de data komen bestaat uit twee onafhankelijke.
- homogeniteitstoets, waarbij getoetst wordt of verschillende steekproeven uit dezelfde verdeling afkomstig zijn.
Voorbeeld
Iemand gooit uit de hand 100 keer met twee dobbelstenen en wil nagaan of de worpen mogelijk afhankelijk zijn. In de onderstaande tabel staan de uitkomsten, geaccumuleerd tot het aantal keren dat de ogencombinatie gegooid werd, met de randtotalen:
1 2 3 4 5 6 1 2 4 3 6 1 3 19 2 4 6 2 4 3 3 22 3 3 2 1 3 3 4 16 4 2 3 0 2 2 2 11 5 5 1 4 3 2 5 20 6 0 6 0 1 2 3 12 16 22 10 19 13 20 100
De volgende tabel toont de waarden van
:1 2 3 4 5 6 1 3,04 4,18 1,90 3,61 2,47 3,80 19 2 3,52 4,84 2,20 4,18 2,86 4,40 22 3 2,56 3,52 1,60 3,04 2,08 3,20 16 4 1,76 2,42 1,10 2,09 1,43 2,20 11 5 3,20 4,40 2,00 3,80 2,60 4,00 20 6 1,92 2,64 1,20 2,28 1,56 2,40 12 16 22 10 19 13 20 100
Vervolgens is voor elke en de term berekend:
1 2 3 4 5 6 1 0,36 0,01 0,64 1,58 0,87 0,17 3,63 2 0,07 0,28 0,02 0,01 0,01 0,45 0,82 3 0,08 0,66 0,23 0,00 0,41 0,20 1,56 4 0,03 0,14 1,10 0,00 0,23 0,02 1,52 5 1,01 2,63 2,00 0,17 0,14 0,25 6,20 6 1,92 4,28 1,20 0,72 0,12 0,15 8,39 3,47 7,98 5,18 2,48 1,78 1,23 22,12
met als totaal: .
Onder de nulhypothese van onafhankelijkheid is de toetsingsgrootheid bij benadering chi-kwadraatverdeeld met (6-1)(6-1) = 25 vrijheidsgraden. De overschrijdingskans van de gevonden waarde 22,12 is iets groter dan 0,5, zodat er bij een onbetrouwbaarheidsdrempel van 5% geen reden is om aan de onafhankelijkheid te twijfelen.
Opgemerkt moet worden dat voor een goede benadering de waargenomen aantallen niet te klein mogen zijn. In de literatuur worden grenzen van 1 tot 5 genoemd. In dit voorbeeld is aan deze eis niet voldaan, maar het toont wel het principe van de toets.
De chi-kwadraattest toepassen in Snap
Je kan deze test toepassen op single-response variabelen. De test vergelijkt de werkelijke en verwachte (theoretische) waarden om vast te stellen of er een significante relatie is tussen twee variabelen in een tabel
Om de chi-kwadraat statistiek en bijhorende statistiek te berekenen voor een kruistabel of grid tabel:
- selecteer je de Chi square optie het Analysis Definition dialoogvenster
- klik je op in de analysis toolbar van de tabel
De chi-kwadraat en bijhorende statistische gegevens worden weergegeven bovenaan de tabel
Je kan de verwachte waarden tonen door de optie Expected Counts te selecteren in het Analysis Definition dialoogvenster. Dit zijn de waarden die zouden verwacht worden in elke cel van de tabel indien de rijvariabele niet zou beïnvloed worden door de kolomvariabele of vice-versa (de Nul Hypothese). Ze worden als volgt berekend:
(Rijtotaal) x (Kolomtotaal) / Tabeltotaal (Base of Berekenigsbasis).
Aangezien je niet altijd de chi-kwadraat waarden rechtstreeks kan vergelijken, geeft Snap een interpretatie weer van het resultaat. De interpretatie van de chi-kwadraat test volgt een 7-puntsschaal en beoordeelt het relationeel verband tussen de variabelen in de kruistabel, als volgt:
Vermelding | Betekent |
---|---|
There is evidence of a relationship, significant at the 1% level | Er is een zeer sterk relationeel verband tussen de variabelen. |
There is evidence of a relationship, significant at the 5% level | Er is een sterk relationeel verband tussen de variabelen. |
There is evidence of a relationship, significant at the 10% level | Er is een relationeel verband tussen de variabelen |
The test is inconclusive | De variabelen zijn al dan niet relationeel verbonden |
There is evidence of no relationship, significant at the 10% level | Er is een vermoeden dat er geen relationeel verband is tussen de variabelen |
There is evidence of no relationship, significant at the 5% level | Er is een sterk vermoeden dat er geen relationeel verband is tussen de variabelen. |
There is evidence of no relationship, significant at the 1% level | Er is een zeer sterk vermoeden dat er geen relationeel verband is tussen de variabelen. |
Error: Chi-squared test invalid. Degrees of freedom is zero | Er is onvoldoende data om de chi-kwadraat statistiek te berekenen |
De informatie gegeven in het chi-kwadraat rapport is als volgt
Detail | Betekenis |
---|---|
Chi-squared value | waarbij O de geobsereerde (werkelijke) waarde is, en E de verwachte waarde voor elke cel. |
Degrees of freedom (vrijheidsgraden) | Refereert naar het aantal keuzes die gemaakt kunnen worden bij het vastzetten van de waardes van de verwachte frekwenties. Dit wordt als volgt berekend: waarbij r het aantal rijen in de tabel is, en c het aantal kolommen. |
Cramérs V | Wordt gebruikt om tabellen met verschillende dimensies en staalgroottes te vergelijken. Het wordt als volgt berekend: waarbij n het aantal cases is en k de kleinste waarde is van het aantal kolommen of rijen. De Cramers waarde ligt altijd tussen 0 en 1. |
Phi Coefficient | Berekend als volgt: waarbij n het aantal cases is. Voor tabellen van 2 bij 2, ligt Phi altijd tussen 0 en 1. Indien één dimensie groter is dan 2, dan kan Phi ook groter dan 1 zijn. Phi kan gebruikt worden om tabellen van dezelfde dimensie - maar met verschillende staalgroottes - te vergelijken. |
Contingency Coefficient | Berekend als volgt: Dit levert altijd een waarde op tussen 0 en 1. Tabellen met verschillende dimensies kunnen niet vergeleken worden |
Evidence of Relationship | Een beoordeling die de grootorde van het relationeel verband (of de afwezigheid ervan) uitdrukt tussen de rij en kolomvariabelen. Dit wordt gebruikt omdat het vergelijken van chi-kwadraats waarden van tabellen met verschillende staalgroottes of dimensies nutteloos is. |
Warning | Dit verschijnt wanneer een groot aantal cellen in de tabel een kleine Expected Value weergeven. De betrouwbaarheid van de chi-kwadraatstest vermindert indien het aandeel van cellen met lage verwachte waarden toeneemt. Een waarschuwing verschijnt indien meer dan 20% van de cellen een verwachte waarde hebben die kleiner is dan 5. |