Stappenplan analyse: Difference between revisions
(61 intermediate revisions by 3 users not shown) | |||
Line 1: | Line 1: | ||
Een stappenplan voor de analyse is belangrijk omdat je anders het risco loopt dat data niet of niet goed geinterpreteerd wordt. | |||
Het maken van een stappenplan zorgt er enerzijds voor dat er een van te voren vastgestelde manier is om de data te verwerken, dit kan voorkomen dat data verkeerd wordt geinterpreteerd omdat wij mensen nou eenmaal de neiging hebben om onze gevoelens achterna te lopen in plaats van objectief naar data te kijken. Anderszijds is het ook goed omdat op deze manier aan het licht komt of we misschien belangrijke vragen zijn vergeten te stellen. | |||
er | |||
==Waar moet je rekening mee houden voor je analyse?== | |||
===Data typen=== | |||
<!-- binary, nominal or ordered categorical duidelijker verwerken--> | |||
Er zijn verschillende typen data die elk op een eigen manier geanaliseerd kunnen worden. De typen data die wij onderscheiden zijn: | |||
Kwalitatief: | |||
Deze data is niet nummeriek, en is niet duidelijk gedefineerd | |||
*geordend | *geordend | ||
<blockquote> | <blockquote> | ||
Bijvoorbeeld: goed gemiddeld slecht | |||
</blockquote> | </blockquote> | ||
<blockquote> | <blockquote> | ||
Er kan altijd een waarde aan deze data toegekend worden. Er is een duidelijke volgorde, hierdoor is het onderandere mogelijk een gemiddelde te berekenen. | |||
</blockquote> | </blockquote> | ||
*ongeordend | *ongeordend | ||
<blockquote> | <blockquote> | ||
Bijvoorbeeld: Nederland Duitsland België | |||
</blockquote> | |||
<blockquote> | |||
Deze data is nooit nummeriek en er kan niet duidelijke een volgorde worden bepaald, ook is het niet mogelijk een gemiddelde te bepalen. | |||
</blockquote> | |||
<blockquote> | |||
Wel is het mogelijk deze data op frequentie te sorteren of om de data te reduceren. Een voorbeeld van reductie zou zijn Duitsland of niet Duitsland. | |||
</blockquote> | |||
Kwantitatief | |||
Dit is numerieke data, de waarde van deze data is onweerlegbaar. | |||
Het verwerken van kwantitatieve data is makkelijker dan die van kwalitatieve data, omdat kwantitatieve data een vaste waarde heeft. | |||
===Data structuur=== | |||
Ook de vorm van je data heeft invloed op de verwerking ervan. | |||
De simpelste vorm van data is een platte datastructuur, een tabel met een kolom per vraag en een rij per responsie. | |||
Zelfs bij deze simpelste vorm kunnen zich al problemen voordoen. | |||
Bij een vragenlijst kunnen ook vragen staan die alleen beantwoord moeten worden als een andere vraag positief beantwoordt is, dit lijdt tot open plekken in je data. | |||
Ook kan het hierdoor zo zijn dat je bruikbare responsie voor een bepaalde vraag te laag om een sluitende conclusie te vormen. | |||
Data kan ook in een hierarchische vorm binnen komen. | |||
Een voorbeeld hiervan is vragen over een huishouden waarbij een aantal algemene vragen zijn en een aantal vragen voor iedere persoon uit het huishouden. | |||
Een mogelijkheid voor het analyseren van deze data is het opsplitsen van de data in meerdere platte structuren per level bijvoorbeeld een structuur met alle antwoorden van de kinderen. Hierbij is het echter wel belangrijk dat de link met het huishouden blijft bestaan. | |||
==verkennende data-analyse== | |||
Bij verkennende data-analyse kijk je naar je databestanden mogelijk al voordat de data verzameld is. deze stap is bedoeld om een idee te krijgen van wat je kunt verwachten. Het kan zijn data na de verkenning van de databestanden je tot de conclusie komt dat je nog bepaalde data mist of juist overbodig is, hierdoor is het mogelijk je vragenlijst nog aan te passen. | |||
Na het verzamelen van je data kun je nog een keer de verkennende data-analyse uitvoeren, dit zorgt er voor dat je een schone dataset hebt. Ook toont het de beperkingen van je data, bijvoorbeeld dat je niet voldoende data hebt van een bepaalde sub-groep. | |||
==De hoofdbevindingen afleiden== | |||
Deze stap begint met een schone afgeslankte dataset na het uitvoeren van de verkennende data-analyse. | |||
Hierdoor kunnen tegenstrijdigheden duidelijker uitgelegd worden. In deze stap is zoals de naam al zegt het voornaamste doel om de hoofdbevindingen af te leiden en deze duidelijk te verwoorden voor de samenvatting die we later gaan maken. | |||
Bij het afleiden van je bevindingen is het onder andere belangrijk dat je let op de omvang van je subgroepen. | |||
Het kan namelijk zijn dat de verhouding in responsie significant afwijkt van de daadwerkelijke verhouding. dit kan ook opzettelijk gedaan worden zodat ook van minderheden genoeg data beschikbaar is. | |||
een manier om de verhoudingen te corrigeren is: | |||
Eerst de data op te splitsen vervolgens de data te schalen zodat de verhouding klopt en uiteindelijk de data weer samen te voegen. | |||
Een probleem met deze methode kan zijn dat er van een subgroep gewoonweg te weinig data is of dat het deel van de subgroep dat deelgenomen heeft niet representatief is voor de hele groep, omdat bijvoorbeeld de rest van de subgroep weigert mee te werken. In deze gevallen is het niet mogelijk de data te schalen. En zul je genoodzaakt zijn het onderzoek opnieuw uit te voeren of de subgroep weg te laten. | |||
De daadwerkelijke afleiding van het doel van je vragenlijst. | |||
Is je doel om een formele schatting te maken? Dan ben je voornamelijk geïnteresseerd in een strikt numeriek antwoord terwijl een ander onderzoek juist een meer nijgt naar een meer informeel antwoord. | |||
Voor een strikt numeriek antwoord is het een kwestie van waarden optellen en delen. Het is hierbij wel belangrijk dat er nauwkeurige gewichten aan bepaalde waarden wordt gegeven. Hierbij moet wel opgelet worden dat niet te hoge gewichten worden toegekend aan kleine hoeveelheden data, dit zou de betrouwbaarheid verlagen. | |||
Een minder numerieke vragenlijst is een stuk lastiger om goed te analyseren. | |||
Een vraag waarbij de respondant de opties in een bepaalde volgorde zet is bijvoorlijk lastig te verwerken want als de ranking is 4 3 2 1 had dit op een schaal van 0 tot 10 ook 9,5 9 8,7 3 kunnen zijn dit is echter niet meer afleidbaar uit de ranking, dus vaak is het beter rankings te vervangen door scores. | |||
===Data simplificatie=== | |||
---- | |||
Omdat je vaak veel data moet analyseren is het belangrijk je data eerst te rankschikken. | |||
Dit kan op meerdere manieren: | |||
*een richtingstabellen: | |||
<blockquote> | |||
De eenvoudigste manier van rankschikken is de data opsplitsen in eenrichtingstabellen. Deze tabellen bevatten elk de antwoorden op slechts een vraag. Data die je hier uit af kunt leiden is bijvoorbeeld de frequentie van elk gekozen antwoord. Het nadeel hiervan is dat combinaties van antwoorden verloren gaan. | |||
</blockquote> | </blockquote> | ||
*meerrichtings tabellen: | |||
<blockquote> | <blockquote> | ||
Meerrichtings tabellen zijn multidimensionale tabellen met in elke dimensie een vraag. Bijvoorbeeld een tweerichtings tabel van 2 vragen met elk 5 antwoorden bevat 5 rijen en 5 kolommen dus 25 cellen. In cel(2,4) staat dan de frequentie van het aantal mensen dat zowel op de eerste vraag het 2e antwoord heeft gegeven en op de tweede vraag het 4e antwoordt. | |||
</blockquote> | </blockquote> | ||
<blockquote> | <blockquote> | ||
Het voordeel hiervan ten opzichte van de eenrichtings tabel is dat combinaties van antwoorden behouden blijven, het nadeel is dat voor hogere dimensies de tabellen snel in omvang toenemen. | |||
</blockquote> | </blockquote> | ||
<blockquote> | |||
Het is daarom erg belangrijk om afweging te maken over welke vragen men combineert. Een meerrichtingstabel kan vereenvoudigt worden als blijkt dat 1 bepaalde dimensie geen invloed heeft. | |||
</blockquote> | |||
<blockquote> | |||
naast frequenties kunnen ook genormaliseerde persentages. | |||
</blockquote> | |||
<blockquote> | |||
Ook kunnen de resultaten van een meerrichtingstabel weer gebruikt worden in een andere meerrichtingstabel. | |||
</blockquote> | |||
<blockquote> | |||
Verder kunnen er ook tabellen gemaakt worden van de data van een subgroep die aan een specifieke vraag voldoet, zo kan de data ingeperkt worden. Hierbij moet wel rekening gehouden worden dat de subgroep voldoende groot is. | |||
</blockquote> | |||
Bij vragen waar men meerdere antwoorden kan kiezen zijn er meerdere manieren om de data te verwerken afhankelijk van wat je wilt onderzoeken | |||
De eerste mogelijkheid is de vraag op te splitsen in het aantal mogelijkheden en voor elke mogelijk een wel/niet antwoord zetten. | |||
Een tweede mogelijkheid is om te kijken naar het nummer van vinkjes dat een persoon gezet heeft. | |||
Een andere mogelijkheid is het bedenken van kunstmatige variabelen die de invoer van verschillende vragen samenvoegt. En deze in een kruistabel te zetten. | |||
Een ander manier van data simplificatie is het gebruik van een [[scatterplot matrix]], deze zorgt er voor dat we naar veel variabelen tegelijkertijd kunnen kijken terwijl we verschillende groepen onderscheiden. | |||
===Bepaal samenhang van variabelen=== | |||
---- | |||
Een [[trellis plot]] is goede manier om een simpel beeld te krijgen van subdivisies van data. Hierdoor is het makkelijker een overzicht van de samenhang van variabelen te krijgen. | |||
Voor kwalitatieve data kan de [[chi-square test]] gebruikt worden. Het nadeel hiervan is dat hij gelimiteerd is tot slechts 2 variabelen. Als men toch met meer variabelen wil werken kun je log-lineaire modellen gebruiken, deze gebruikt multidimensionale tabellen om de samenhang tussen variabelen te bepalen. Hierdoor kan er rekening gehouden worden met onderlingen relaties. | |||
Als we al weten dat data samenhangt moeten we nog een manier hebben om deze tegelijkertijd te bestuderen. Dit kan door te kijken naar de onderlingen correlaties van de variabelen. | |||
Als blijkt dat vrijwel alle data gecorreleert is dan kan het zijn dat je veel minder data hebt dan dat je eigenlijk dacht. Om dit uit te vinden kun je de [[principal component analysis]] methode gebruiken. | |||
===het definiëren van subgroepen=== | |||
---- | |||
Het definiëren van subgroepen is een belangrijke stap in het analyse proces, deze stap geeft aan dat je je respondanten niet als een homogene massa beschouwd, maar ook daadwerkelijk een onderscheidt maakt in verschillende subgroepen. | |||
Een methode hiervoor is [[cluster analyse]]. | |||
===Modeleer technieken=== | |||
---- | |||
De techniek die je moet toepassen om je data te modelleren hangt af van de verkregen datatype zoals hierboven beschreven is. | |||
Werk je met waarden data dan is het [[Poisson regression model]] de beste keus. | |||
Als je met ja/nee data werkt kun je beter [[regression models]] gerbuiken. | |||
Bij data die verdeeld is in categoriën zoals hoog midden laag is [[log-lineair modeleren]] het meest geschikt. | |||
Al de bovengenoemde methoden vallen onder de categorie [[gegeneraliseerde lineaire modellen]]. Deze modellen kunnen allemaal met een computer geanalyseerd worden, namelijk met [[GLIM software]]. | |||
Als je met waarden of binaire(ja/nee) data werkt zal de verdeling altijd binnen de verwachte limieten vallen. | |||
==Archiveren== | |||
Bij het analyseren van data is het ook altijd belangrijk dat de analyse indien nodig herhaald kan worden. Hiervoor moeten de volgende dingen bewaard worden: | |||
*data collectie methoden | |||
*onbewerkte data | |||
*metadata | |||
*variabelen en hun interpretatie | |||
*logboeken van de analyse | |||
*verslagen | |||
Verdere redenen voor de dataopslag kunnen zijn: | |||
*het onderzoeksproces geordend houden | |||
*voldoen aan de eisen van een opdrachtgever | |||
*her-analyse bij nieuwe inzichten | |||
*data samenvoegen met andere data | |||
*authenticatie | |||
==Bronnen:== | |||
The University of Reading Statistical Services Centre 2001 – Approaches to the Analysis of Survey Data | |||
The University of Reading Statistical Services Centre 2002 – Modern Methods of Analysis | |||
J. A. Nelder and R. W. M. Wedderburn 2012 - Generalized Linear Models | |||
Terug [[PRE Groep5]] |
Latest revision as of 21:09, 8 October 2014
Een stappenplan voor de analyse is belangrijk omdat je anders het risco loopt dat data niet of niet goed geinterpreteerd wordt.
Het maken van een stappenplan zorgt er enerzijds voor dat er een van te voren vastgestelde manier is om de data te verwerken, dit kan voorkomen dat data verkeerd wordt geinterpreteerd omdat wij mensen nou eenmaal de neiging hebben om onze gevoelens achterna te lopen in plaats van objectief naar data te kijken. Anderszijds is het ook goed omdat op deze manier aan het licht komt of we misschien belangrijke vragen zijn vergeten te stellen.
Waar moet je rekening mee houden voor je analyse?
Data typen
Er zijn verschillende typen data die elk op een eigen manier geanaliseerd kunnen worden. De typen data die wij onderscheiden zijn:
Kwalitatief:
Deze data is niet nummeriek, en is niet duidelijk gedefineerd
- geordend
Bijvoorbeeld: goed gemiddeld slecht
Er kan altijd een waarde aan deze data toegekend worden. Er is een duidelijke volgorde, hierdoor is het onderandere mogelijk een gemiddelde te berekenen.
- ongeordend
Bijvoorbeeld: Nederland Duitsland België
Deze data is nooit nummeriek en er kan niet duidelijke een volgorde worden bepaald, ook is het niet mogelijk een gemiddelde te bepalen.
Wel is het mogelijk deze data op frequentie te sorteren of om de data te reduceren. Een voorbeeld van reductie zou zijn Duitsland of niet Duitsland.
Kwantitatief
Dit is numerieke data, de waarde van deze data is onweerlegbaar.
Het verwerken van kwantitatieve data is makkelijker dan die van kwalitatieve data, omdat kwantitatieve data een vaste waarde heeft.
Data structuur
Ook de vorm van je data heeft invloed op de verwerking ervan.
De simpelste vorm van data is een platte datastructuur, een tabel met een kolom per vraag en een rij per responsie.
Zelfs bij deze simpelste vorm kunnen zich al problemen voordoen.
Bij een vragenlijst kunnen ook vragen staan die alleen beantwoord moeten worden als een andere vraag positief beantwoordt is, dit lijdt tot open plekken in je data.
Ook kan het hierdoor zo zijn dat je bruikbare responsie voor een bepaalde vraag te laag om een sluitende conclusie te vormen.
Data kan ook in een hierarchische vorm binnen komen.
Een voorbeeld hiervan is vragen over een huishouden waarbij een aantal algemene vragen zijn en een aantal vragen voor iedere persoon uit het huishouden.
Een mogelijkheid voor het analyseren van deze data is het opsplitsen van de data in meerdere platte structuren per level bijvoorbeeld een structuur met alle antwoorden van de kinderen. Hierbij is het echter wel belangrijk dat de link met het huishouden blijft bestaan.
verkennende data-analyse
Bij verkennende data-analyse kijk je naar je databestanden mogelijk al voordat de data verzameld is. deze stap is bedoeld om een idee te krijgen van wat je kunt verwachten. Het kan zijn data na de verkenning van de databestanden je tot de conclusie komt dat je nog bepaalde data mist of juist overbodig is, hierdoor is het mogelijk je vragenlijst nog aan te passen.
Na het verzamelen van je data kun je nog een keer de verkennende data-analyse uitvoeren, dit zorgt er voor dat je een schone dataset hebt. Ook toont het de beperkingen van je data, bijvoorbeeld dat je niet voldoende data hebt van een bepaalde sub-groep.
De hoofdbevindingen afleiden
Deze stap begint met een schone afgeslankte dataset na het uitvoeren van de verkennende data-analyse.
Hierdoor kunnen tegenstrijdigheden duidelijker uitgelegd worden. In deze stap is zoals de naam al zegt het voornaamste doel om de hoofdbevindingen af te leiden en deze duidelijk te verwoorden voor de samenvatting die we later gaan maken.
Bij het afleiden van je bevindingen is het onder andere belangrijk dat je let op de omvang van je subgroepen.
Het kan namelijk zijn dat de verhouding in responsie significant afwijkt van de daadwerkelijke verhouding. dit kan ook opzettelijk gedaan worden zodat ook van minderheden genoeg data beschikbaar is. een manier om de verhoudingen te corrigeren is:
Eerst de data op te splitsen vervolgens de data te schalen zodat de verhouding klopt en uiteindelijk de data weer samen te voegen.
Een probleem met deze methode kan zijn dat er van een subgroep gewoonweg te weinig data is of dat het deel van de subgroep dat deelgenomen heeft niet representatief is voor de hele groep, omdat bijvoorbeeld de rest van de subgroep weigert mee te werken. In deze gevallen is het niet mogelijk de data te schalen. En zul je genoodzaakt zijn het onderzoek opnieuw uit te voeren of de subgroep weg te laten.
De daadwerkelijke afleiding van het doel van je vragenlijst.
Is je doel om een formele schatting te maken? Dan ben je voornamelijk geïnteresseerd in een strikt numeriek antwoord terwijl een ander onderzoek juist een meer nijgt naar een meer informeel antwoord.
Voor een strikt numeriek antwoord is het een kwestie van waarden optellen en delen. Het is hierbij wel belangrijk dat er nauwkeurige gewichten aan bepaalde waarden wordt gegeven. Hierbij moet wel opgelet worden dat niet te hoge gewichten worden toegekend aan kleine hoeveelheden data, dit zou de betrouwbaarheid verlagen.
Een minder numerieke vragenlijst is een stuk lastiger om goed te analyseren.
Een vraag waarbij de respondant de opties in een bepaalde volgorde zet is bijvoorlijk lastig te verwerken want als de ranking is 4 3 2 1 had dit op een schaal van 0 tot 10 ook 9,5 9 8,7 3 kunnen zijn dit is echter niet meer afleidbaar uit de ranking, dus vaak is het beter rankings te vervangen door scores.
Data simplificatie
Omdat je vaak veel data moet analyseren is het belangrijk je data eerst te rankschikken.
Dit kan op meerdere manieren:
- een richtingstabellen:
De eenvoudigste manier van rankschikken is de data opsplitsen in eenrichtingstabellen. Deze tabellen bevatten elk de antwoorden op slechts een vraag. Data die je hier uit af kunt leiden is bijvoorbeeld de frequentie van elk gekozen antwoord. Het nadeel hiervan is dat combinaties van antwoorden verloren gaan.
- meerrichtings tabellen:
Meerrichtings tabellen zijn multidimensionale tabellen met in elke dimensie een vraag. Bijvoorbeeld een tweerichtings tabel van 2 vragen met elk 5 antwoorden bevat 5 rijen en 5 kolommen dus 25 cellen. In cel(2,4) staat dan de frequentie van het aantal mensen dat zowel op de eerste vraag het 2e antwoord heeft gegeven en op de tweede vraag het 4e antwoordt.
Het voordeel hiervan ten opzichte van de eenrichtings tabel is dat combinaties van antwoorden behouden blijven, het nadeel is dat voor hogere dimensies de tabellen snel in omvang toenemen.
Het is daarom erg belangrijk om afweging te maken over welke vragen men combineert. Een meerrichtingstabel kan vereenvoudigt worden als blijkt dat 1 bepaalde dimensie geen invloed heeft.
naast frequenties kunnen ook genormaliseerde persentages.
Ook kunnen de resultaten van een meerrichtingstabel weer gebruikt worden in een andere meerrichtingstabel.
Verder kunnen er ook tabellen gemaakt worden van de data van een subgroep die aan een specifieke vraag voldoet, zo kan de data ingeperkt worden. Hierbij moet wel rekening gehouden worden dat de subgroep voldoende groot is.
Bij vragen waar men meerdere antwoorden kan kiezen zijn er meerdere manieren om de data te verwerken afhankelijk van wat je wilt onderzoeken
De eerste mogelijkheid is de vraag op te splitsen in het aantal mogelijkheden en voor elke mogelijk een wel/niet antwoord zetten.
Een tweede mogelijkheid is om te kijken naar het nummer van vinkjes dat een persoon gezet heeft.
Een andere mogelijkheid is het bedenken van kunstmatige variabelen die de invoer van verschillende vragen samenvoegt. En deze in een kruistabel te zetten.
Een ander manier van data simplificatie is het gebruik van een scatterplot matrix, deze zorgt er voor dat we naar veel variabelen tegelijkertijd kunnen kijken terwijl we verschillende groepen onderscheiden.
Bepaal samenhang van variabelen
Een trellis plot is goede manier om een simpel beeld te krijgen van subdivisies van data. Hierdoor is het makkelijker een overzicht van de samenhang van variabelen te krijgen.
Voor kwalitatieve data kan de chi-square test gebruikt worden. Het nadeel hiervan is dat hij gelimiteerd is tot slechts 2 variabelen. Als men toch met meer variabelen wil werken kun je log-lineaire modellen gebruiken, deze gebruikt multidimensionale tabellen om de samenhang tussen variabelen te bepalen. Hierdoor kan er rekening gehouden worden met onderlingen relaties.
Als we al weten dat data samenhangt moeten we nog een manier hebben om deze tegelijkertijd te bestuderen. Dit kan door te kijken naar de onderlingen correlaties van de variabelen.
Als blijkt dat vrijwel alle data gecorreleert is dan kan het zijn dat je veel minder data hebt dan dat je eigenlijk dacht. Om dit uit te vinden kun je de principal component analysis methode gebruiken.
het definiëren van subgroepen
Het definiëren van subgroepen is een belangrijke stap in het analyse proces, deze stap geeft aan dat je je respondanten niet als een homogene massa beschouwd, maar ook daadwerkelijk een onderscheidt maakt in verschillende subgroepen.
Een methode hiervoor is cluster analyse.
Modeleer technieken
De techniek die je moet toepassen om je data te modelleren hangt af van de verkregen datatype zoals hierboven beschreven is.
Werk je met waarden data dan is het Poisson regression model de beste keus.
Als je met ja/nee data werkt kun je beter regression models gerbuiken.
Bij data die verdeeld is in categoriën zoals hoog midden laag is log-lineair modeleren het meest geschikt.
Al de bovengenoemde methoden vallen onder de categorie gegeneraliseerde lineaire modellen. Deze modellen kunnen allemaal met een computer geanalyseerd worden, namelijk met GLIM software.
Als je met waarden of binaire(ja/nee) data werkt zal de verdeling altijd binnen de verwachte limieten vallen.
Archiveren
Bij het analyseren van data is het ook altijd belangrijk dat de analyse indien nodig herhaald kan worden. Hiervoor moeten de volgende dingen bewaard worden:
- data collectie methoden
- onbewerkte data
- metadata
- variabelen en hun interpretatie
- logboeken van de analyse
- verslagen
Verdere redenen voor de dataopslag kunnen zijn:
- het onderzoeksproces geordend houden
- voldoen aan de eisen van een opdrachtgever
- her-analyse bij nieuwe inzichten
- data samenvoegen met andere data
- authenticatie
Bronnen:
The University of Reading Statistical Services Centre 2001 – Approaches to the Analysis of Survey Data
The University of Reading Statistical Services Centre 2002 – Modern Methods of Analysis
J. A. Nelder and R. W. M. Wedderburn 2012 - Generalized Linear Models
Terug PRE Groep5