Cluster analyse wordt toegepast als methode om de markt te segmenteren aan de hand van een combinatie van variabelen, die verschillen van de klassieke segmentering aan de hand van sociodemografische quota zoals leeftijd, opleidingsniveau, regio, geslacht etc. Cluster analyse is het meest effectief wanneer je quantity variabelen gebruikt, of indien je die niet beschikbaar hebt, single-response variabelen met relatief veel mogelijke antwoorden.

Alle brondata moet op zijn minst ordinaal zijn, en idealiter een interval of ratio type zijn. Dit wil zeggen : indien een single response variabele wordt gebruikt, moet het een variabele zijn waar de antwoordcodes geordend zijn van klein naar groot of omgekeerd. Zo zou een leeftijdsvariabele acceptabel kunnen zijn (op voorwaarde dat de leeftijden in volgorde worden weergegeven), maar een geslacht of regio is niet geschikt.

Cluster analyse is een exploratietechniek, die is ontworpen om patronen in data te detecteren die niet altijd vanzelfsprekend zijn. Het doel is om case in groepen te sorteren (clusters), zodat de leden van een specifieke cluster zich gelijk gedragen, maar verschillend ten opzichte van leden van een andere cluster.

Het is geen klassificatie techniek, aangezien er geen veronderstellingen over de aard van de groep/cluster wordt gemaakt, alvorens de analyse wordt uitgevoerd. De groepen worden samengesteld op basis van de data cases, waarbij elke case wordt toegekend in de meest aangepaste cluster. Elke cluster wordt gedefinieerd door de karakteristiek gedragingen van de leden van die cluster.

Het algorithme voor de Cluster Analyse in Snap (gekend als k-means clustering) is als volgt opgemaakt:

  1. De gebruiker specifieert hoeveel clusters nodig zijn, en welke variabelen er moeten gebruikt worden om de cluster analyse uit te voeren
  2. Elke cluster krijgt dan een waarde voor elke variabele. Doorgaans gebeurt dit arbitrair, waarbij men rekening houdt met de reeks van waarden (antwoordcodes) voor elke variabele. Bijvoorbeeld : indien slechts 2 variabelen werden gespecifieerd, kunnen zij op een tweedimensionele scatter grafiek worden geplot, waarbij de cluster centra duidelijk worden door de punten op deze grafiek.
  3. Eenmaal de initiële cluster centra aangeduid, neemt Snap elke case in overweging, en berekent de software bij welk centrum de case zich het dichtst bevindt. De case wordt dan toegekend aan die groep/cluster.
  4. Eenmaal alle cases in overweging zijn genomen, en toegekend aan één van de clusters, worden de cluster centra opnieuw berekend als gemiddelde waarde voor alle leden van die cluster.

    Als gevolg hiervan kan het zijn dat sommige cases niet meer in de juiste cluster staan. Het centrum van de cluster is misschien verschoven, weg van de case, terwijl een ander clustercentrum dichterbij is geschoven.
  5. Snap herhaalt dan de vorige stap (namelijk elke case toekennen aan het dichtsbijzijnde cluster centrum), totdat alles juist is geklasseerd.



Waarschijnlijk vindt er wel wat beweging plaats tussen die clusters, maar er wordt doorgaans snel convergentie bereikt. Logischerwijs zullen opeenvolgende herhalingen van dit proces steeds minder bewegingen opleveren, wat betekent dat de clustercentra niet zoveel meer wijzigen, en zo vermindert de beweging bij elke herhaling.

Gestandaardiseerde waarden

Snap gebruikt gestandaardiseerde data waarden om de Cluster analyse uit te voeren, zodat de gebruiker deze ook kan raadplegen in de resultaten, indien gewenst. De gestandardiseerde data waarden worden berekend door een transformatie toe te passen op de originele data set. Er wordt een dataset van waarden gecreëerd met een gemiddelde van 0 en een standaard afwijking van 1.

Dit is een essentieel proces, aangezien de bronvariabelen andere grootordes kunnen hebben. Bijvoorbeeld:

Denk bijvoorbeeld aan 2 quantity variabelen (Leeftijd en Salaris) die worden meegenomen in de brondata. Het is waarschijnlijk dat de waarden voor Salaris een andere grootorde zullen hebben (meervouden van 10.0000) dan de waarden voor Leeftijd (veelvouden van 10). Indien de clusteranalyse de werkelijke datawaarden zou gebruiken, zouden de verschillen in Salaris veel meer gewicht toegekend krijgen dan de verschillen in leeftijd. De hieruit gecreëerde clusters zouden hoofdzakelijk door de verschillen in salaris worden gedefinieerd. Door de gestandaardiseerde waarden toe te passen, worden alle bronvariabelen op gelijke voet gebracht, en werpen ze evenveel gewicht in de schaal bij de clusteranalyse.

Bij het rapporteren van resultaten, is het vaak niet handig om deze gestandaardiseerde waarden te gebruiken, aangezien ze niet in eenheden worden uitgedrukt (€, %, etc...) en bijgevolg niet echt nuttig zijn voor interpretatie. Daarom zal Snap standaard de oorspronkelijke data waarden gebruiken voor rapportage.


Snap meet de afstand tussen cases en cluster centra aan de hand van de Euclidische Methode. Dit is de lengte van de rechte lijn tussen de 2 punten op een grafiek (de case waarde en het cluster centrum)


Gestandaardiseerde data waarden worden berekend door de gemiddelde waarde af te trekken van de volledige data set, en het resultaat daarvan te delen door de standaardafwijking.

Lopend gemiddelde

De specificatie voor cluster analyse bevat ook een optie om Running Means (lopende gemiddelden) te gebruiken. Standaard is dit niet geactiveerd. Indien je de Running Means optie activeert, dan zal de berekening van het cluster centrum plaatsvinden telkens een case werd toegekend aan een nieuwe cluster, eerder dan te wachten tot alle cases werden beoordeeld (dit vraagt meer rekenpower, en vertraagt het proces)

Een cluster analyse maken
  1. Open de enquête
  2. Klik op de Advanced statistics button toets op de toolbar om het Analysis variables overzicht te tonen. Het overzichtsscherm toont alle Group en Auto Category variabelen, Factor- en clusteranalyses die momenteel al werden gecreëerd in je enquête.

  3. Klik op New button en selecteer New Cluster Analysis...

  4. Benoem de analyse en geef een omschrijvend label

    Specifieer de lijst van variabelen waaruit clusters moeten worden geëxtrapoleerd, in het Source veld. Bijvoorbeeld: specifieer Q5, Q7, Q2 om clusters te evalueren voor die 3 variabelen. Gebruik reeksdefinities indien de variabelen in een opeenvolgende reeks vallen, bijvoorbeeld Q6a to Q6e bevat alle variabelen van Q6a tot en met Q6e.

    Eenmaal de bronvariabelen in source bepaald zijn, zullen de clusters bepaald worden, en kan je de resultaten nakijken of verder kwalificeren door op het gepaste tabblad te klikken.

Initiele centra

Indien clusters niet duidelijk zijn gedefinieerd, kunnen de geselecteerde cluster centra de gegenereerde clusters beïnvloeden. Als extreem voorbeeld : indien je data hebt die aanvankelijk lijkt op twee clusters, en je vraagt naar 3 clusters, zal de 3de cluster niet vanzelf een gepast centrum aangeven. De finale positie zal dus beïnvloed worden door de startpositie.

Kijk naar de centra van de scatter plot (zie hieronder "Een cluster analyse onderzoeken") om te kijken of de clusters goed zijn verspreid voor de data - de F-waarden helpen hier ook bij.

De aanvankelijke centrum opties zijn:

Zero (default) - start van 0 zodat de clusters zich sequentieel verwijderen, weg van het nulpunt

First cases - n cluster centra worden bepaald op basis van n eerste cases. Dit geeft je enkele reële startpunten als initiële centra. Dit staat open voor invloeden door wat respondenten antwoordden.

Evenly spread - zoek voor elke bronvariabele de minimum en maximum waarden. Het eerste cluster centrum start bij de minimum waarden en het laatste bij de maximum waarden. De andere clusters worden gelijk verspreid op een "lijn" tussen deze extremen. Dit zal vooral handig zijn bij resultaten die variëren tussen goed en slecht

Een cluster analyse onderzoeken

Het Cluster Analysis dialoogvenster laat toe om de gedefinieerde clusters te onderzoeken aan de hand van verschillende visualisaties. Hiervoor kan je door de verschillende tabbladen gaan. Voor meer uitleg over elk tabblad kan je hier terecht

  1. Klik op het tabblad Results  voor meer details over de clusters centra voor elke variabele, en om te zien hoeveel respondenten zich in elke cluster bevinden

    Standaard worden de échte waarden getoond (zoals duidelijk wordt door de Show instelling op Actual Values.  Met deze instelling reflecteren de waarden voor quantity variabelen de échte antwoorden, waarden voor categorieke variabelen (single response) tonen de antwoordcodes.

    • Wijzig de Show instelling naar Code Labels om antwoordcodes voor categorieke variabelen te tonen. Resultaten voor quantity variabelen zullen nog steeds de échte waarden van die variabelen tonen.

    • Wijzig de Show instelling naar Standardised om de gestandaardiseerde resultaten te tonen voor alle variabelen.

  2. Gebruik de passende Show instelling om een beschrijving van élk van de clusters te vormen. Een omschrijvend label kan je toekennen in het Results tabblad of in het Setup tabblad.
  3. Klik op het Centre Distances tabblad om de tabel te zien met de afstanden tussen de cluster centra. De afstanden worden getoond als Actual Values (me de Show instelling op Actual values of Code Labels) of Standardised Values.

  4. Om te zien hoe de clustercentra verschuiven tijdens het herhaalproces, klik je op de Iteration drop-down. De standaard setting is  en toont het resultaat op het einde van de laatste herhaling.
  5. Voor een alternatief beeld op de beweging van de clustercenyra, klik op het Iteration History tabblad om de wijzigingen te tonen van elk centrum tijdens het herhaalde berekeningsproces

  6. Klik op het tabblad Anova om de resultaten van de Analyse van de Variantie te tonen voor de huidige cluster oplossing. De Mean Square waarden tonen de gemiddelde kwadraatafstand tussen elk cluster centrum (Between Clusters) en tussen elke case en het centrum waarbij de case behoort (Within Clusters). De F-value (Fisher waarde) is een statistische waarde die aangeeft hoe verscheiden de clusters zijn; een hoge F-waarde geeft aan dat de clusters sterke verschillen vertonen.

  7. Het F-Values tabblad toont een samenvatting van de F-values voor verschillende cluster oplossingen, waarbij de huidige oplossing wordt gekleurd. Algemeen gesproken geven hoge F-waarden aan dat de leden van elke groep zich homogeen gedragen en dat de clusters zich sterk onderscheiden van elkaar.
  8. Het Scatter Plot tabblad toont een plot van de data case locaties en de cluster centra.De bollen vertegenwoordigen elke case, en worden gekleurd volgens de bijbehorende cluster waarin ze werden toegekend.

    De plot is steeds voor 1 variabele tegenover een andere. Indien er meer dan 2 variabelen in de brondata zitten, zijn er dropdowns aanwezig die je in staat stellen om te bepalen welke variabelen je wil plotten.

WinHelp: BombOok al kan je F-waarden gebruiken als een indicator om te bepalen hoeveel clusters je optimaal gebruikt, is het niet aangewezen om niet énkel op basis van deze informatie te beslissen. De oplossing met de hoogste F-waarde is niet noodzakelijk de ideale oplossing. Je moet dus ook afgaan op je persoonlijke kennis over de doelgroep die je hebt bevraagd. Met andere woorden, als het "wringt" moet je misschien toch een andere cluster instelling selecteren dan die met de hoogste F-waarden.