Inleiding (bron : wikipedia)

De Chi kwadraat test gaat na of waargenomen aantallen systematisch afwijken van verwachte (of gemiddelde) aantallen, en berekent daartoe het totaal van de gewogen kwadratische afwijkingen tussen deze aantallen. Een chi-kwadraattoets wordt veel gebruikt om kruistabellen te analyseren. Omdat er geen aannamen over gemiddelden of over de populatie worden gedaan is dit een parametervrije toets. Ook het meetniveau is niet van belang omdat er alleen naar aantallen wordt gekeken. De chi-kwadraattoets vindt toepassing als:

  • aanpassingstoets, waarbij getoetst wordt of de gevonden data passen bij een veronderstelde verdeling;
  • onafhankelijkheidstoets, waarbij getoetst wordt of de simultane verdeling waaruit de data komen bestaat uit twee onafhankelijke.
  • homogeniteitstoets, waarbij getoetst wordt of verschillende steekproeven uit dezelfde verdeling afkomstig zijn.


Voorbeeld

Iemand gooit uit de hand 100 keer met twee dobbelstenen en wil nagaan of de worpen mogelijk afhankelijk zijn. In de onderstaande tabel staan de uitkomsten, geaccumuleerd tot het aantal keren {\displaystyle n_{ij}}n_{{ij}} dat de ogencombinatie {\displaystyle (i,j)}(i,j) gegooid werd, met de randtotalen:

{\displaystyle n_{ij}}n_{{ij}}123456{\displaystyle n_{i\cdot }}n_{{i\cdot }}
124361319
246243322
332133416
423022211
551432520
606012312
{\displaystyle n_{\cdot j}}n_{{\cdot j}}162210191320100

De volgende tabel toont de waarden van {\displaystyle n_{ij}^{*}={\frac {n_{i\cdot }n_{\cdot j}}{n}}}n_{{ij}}^{*}={\frac  {n_{{i\cdot }}n_{{\cdot j}}}{n}}:

{\displaystyle n_{ij}^{*}}n_{{ij}}^{*}123456{\displaystyle n_{i\cdot }}n_{{i\cdot }}
13,044,181,903,612,473,8019
23,524,842,204,182,864,4022
32,563,521,603,042,083,2016
41,762,421,102,091,432,2011
53,204,402,003,802,604,0020
61,922,641,202,281,562,4012
{\displaystyle n_{\cdot j}}n_{{\cdot j}}162210191320100

Vervolgens is voor elke {\displaystyle i}i en {\displaystyle j}j de term {\displaystyle {\frac {(n_{ij}-n_{ij}^{*})^{2}}{n_{ij}^{*}}}}{\frac  {(n_{{ij}}-n_{{ij}}^{*})^{2}}{n_{{ij}}^{*}}} berekend:

{\displaystyle (i,j)}(i,j)123456
10,360,010,641,580,870,173,63
20,070,280,020,010,010,450,82
30,080,660,230,000,410,201,56
40,030,141,100,000,230,021,52
51,012,632,000,170,140,256,20
61,924,281,200,720,120,158,39
3,477,985,182,481,781,2322,12

met als totaal: {\displaystyle \chi ^{2}=22{,}12}\chi ^{2}=22{,}12.

Onder de nulhypothese van onafhankelijkheid is de toetsingsgrootheid bij benadering chi-kwadraatverdeeld met (6-1)(6-1) = 25 vrijheidsgraden. De overschrijdingskans van de gevonden waarde 22,12 is iets groter dan 0,5, zodat er bij een onbetrouwbaarheidsdrempel van 5% geen reden is om aan de onafhankelijkheid te twijfelen.

Opgemerkt moet worden dat voor een goede benadering de waargenomen aantallen {\displaystyle n_{ij}}n_{{ij}} niet te klein mogen zijn. In de literatuur worden grenzen van 1 tot 5 genoemd. In dit voorbeeld is aan deze eis niet voldaan, maar het toont wel het principe van de toets.


De chi-kwadraattest toepassen in Snap

Je kan deze test toepassen op single-response variabelen. De test vergelijkt de werkelijke en verwachte (theoretische) waarden om vast te stellen of er een significante relatie is tussen twee variabelen in een tabel

Om de chi-kwadraat statistiek en bijhorende statistiek te berekenen voor een kruistabel of grid tabel:

De chi-kwadraat en bijhorende statistische gegevens worden weergegeven bovenaan de tabel

Je kan de verwachte waarden tonen door de optie Expected Counts te selecteren in het Analysis Definition dialoogvenster. Dit zijn de waarden die zouden verwacht worden in elke cel van de tabel indien de rijvariabele niet zou beïnvloed worden door de kolomvariabele of vice-versa (de Nul Hypothese). Ze worden als volgt berekend:

(Rijtotaal) x (Kolomtotaal) / Tabeltotaal (Base of Berekenigsbasis).

Aangezien je niet altijd de chi-kwadraat waarden rechtstreeks kan vergelijken, geeft Snap een interpretatie weer van het resultaat. De interpretatie van de chi-kwadraat test volgt een 7-puntsschaal en beoordeelt het relationeel verband tussen de variabelen in de kruistabel, als volgt:

Vermelding

Betekent

There is evidence of a relationship, significant at the 1% level

Er is een zeer sterk relationeel verband tussen de variabelen.

There is evidence of a relationship, significant at the 5% level

Er is een sterk relationeel verband tussen de variabelen.

There is evidence of a relationship, significant at the 10% level

Er is een relationeel verband tussen de variabelen

The test is inconclusive

De variabelen zijn al dan niet relationeel verbonden

There is evidence of no relationship, significant at the 10% level

Er is een vermoeden dat er geen relationeel verband is tussen de variabelen

There is evidence of no relationship, significant at the 5% level

Er is een sterk vermoeden dat er geen relationeel verband is tussen de variabelen.

There is evidence of no relationship, significant at the 1% level

Er is een zeer sterk vermoeden dat er geen relationeel verband is tussen de variabelen.

Error: Chi-squared test invalid. Degrees of freedom is zero

Er is onvoldoende data om de chi-kwadraat statistiek te berekenen
There is not enough data to calculate the Chi-square statistic


De informatie gegeven in het chi-kwadraat rapport is als volgt

Detail

Betekenis

Chi-squared value

waarbij  O de geobsereerde (werkelijke) waarde is, en E de verwachte waarde voor elke cel.

Degrees of freedom (vrijheidsgraden)

Refereert naar het aantal keuzes die gemaakt kunnen worden bij het vastzetten van de waardes van de verwachte frekwenties. Dit wordt als volgt berekend:

waarbij r het aantal rijen in de tabel is, en c het aantal kolommen.

Cramérs V

Wordt gebruikt om tabellen met verschillende dimensies en staalgroottes te vergelijken. Het wordt als volgt berekend:

waarbij n het aantal cases is en k de kleinste waarde is van het aantal kolommen of rijen. De Cramers waarde ligt altijd tussen 0 en 1.

Phi Coefficient

Berekend als volgt:

waarbij n het aantal cases is. Voor tabellen van 2 bij 2, ligt Phi altijd tussen 0 en 1. Indien één dimensie groter is dan 2, dan kan Phi ook groter dan 1 zijn. Phi kan gebruikt worden om tabellen van dezelfde dimensie - maar met verschillende staalgroottes - te vergelijken.

Contingency Coefficient

Berekend als volgt:

Dit levert altijd een waarde op tussen 0 en 1. Tabellen met verschillende dimensies kunnen niet vergeleken worden


Evidence of Relationship

Een beoordeling die de grootorde van het relationeel verband (of de afwezigheid ervan) uitdrukt tussen de rij en kolomvariabelen. Dit wordt gebruikt omdat het vergelijken van chi-kwadraats waarden van tabellen met verschillende staalgroottes of dimensies nutteloos is.

Warning

Dit verschijnt wanneer een groot aantal cellen in de tabel een kleine Expected Value weergeven. 

De betrouwbaarheid van de chi-kwadraatstest vermindert indien het aandeel van cellen met lage verwachte waarden toeneemt. Een waarschuwing verschijnt indien meer dan 20% van de cellen een verwachte waarde hebben die kleiner is dan 5.