Urvalsstrategier och datainsamling

Written by Ronny Gunnarsson and first published on March 3, 1999.
Last revised on July 10, 2020.

Du måste hänvisa till denna webbsida om du använder informationen någon annanstans.
Hur detta skall se ut beror på var du återanvänder informationen. Det kan exempelvis se ut så här:
Ronny Gunnarsson. "Urvalsstrategier och datainsamling" [på INFOVOICE.SE]. Tillgänglig på: https://infovoice.nu/urvalsstrategier-och-datainsamling/. Informationen hämtad July 14, 2025.

Rekommenderad läsning före denna webbsida	Vad du får ut av att läsa denna webbsida
Projektdesign Introduktion till kvalitativa metoder	I alla studier som är empiriska (slutsatser dras genom att studera verkligheten) gör man någon form av datainsamling. Insamlade data analyseras och därefter drar man sina slutsatser. När man skall samla in data måste man bestämma sig för varifrån de skall samlas in och hur man skall göra det. Man måste välja vilka individer som skall svara på enkäter, bli undersökta etc. Hur väljer man bäst fram vilka individer som skall undersökas / intervjuas och hur genomför man det? Hur påverkar urvalet resultatet? Kan man göra fel?? Genom att läsa denna sidan får du en bättre förståelse för vad du måste tänka på när du planerar ett projekt.

Rekommenderad läsning före denna webbsida

Vad du får ut av att läsa denna webbsida

I alla studier som är empiriska (slutsatser dras genom att studera verkligheten) gör man någon form av datainsamling. Insamlade data analyseras och därefter drar man sina slutsatser. När man skall samla in data måste man bestämma sig för varifrån de skall samlas in och hur man skall göra det. Man måste välja vilka individer som skall svara på enkäter, bli undersökta etc. Hur väljer man bäst fram vilka individer som skall undersökas / intervjuas och hur genomför man det? Hur påverkar urvalet resultatet? Kan man göra fel?? Genom att läsa denna sidan får du en bättre förståelse för vad du måste tänka på när du planerar ett projekt.

Låt oss anta att man vill veta förekomsten av övervikt i landet. Hur går man tillväga? Rent teoretiskt kan man tänka sig att alla landets invånare undersöks med avseende på förekomsten av övervikt. När det gäller hela befolkningen i ett land är det oftast inte möjligt. Det kostar för mycket och tar för lång tid. Om det inte handlade om hela befolkningen i ett land utan en mindre mängd människor, exempelvis alla i den lilla staden Grönköping, så vore det möjligt att undersöka alla individer. Att undersöka alla individer i den population man sedan vill kunna uttala sig om kallas totalundersökning. I sällsynta fall kan man göra en totalundersökning. I de allra flesta fallen gör man istället en urvalsundersökning, det vill säga endast en del av alla individer undersöks . De som väljs ut att bli undersökta kallas stickprov. Om stickprovet väljs ut på rätt sätt kan det anses vara en liten miniatyrkopia av den större bakomliggande population man egentligen vill uttala sig om. Resultatet från stickprovet får sedan representera alla individer i det som kallas den bakomliggande populationen. Att urvalet görs på rätt sätt är viktigare vid epidemiologiska undersökningar jämfört med experimentella.

Datainsamling vid kvantitativ approach

Pappershögar med
registrerade observationer

Datainsamling startar långt innan projektet sjösätts. Den är en viktig del i planeringen av studien. Att planera datainsamlingen omfattar ett antal beslut som måste tas långt innan datainsamlingen görs:

Bestäm vilken population du slutligen vill kunna uttala dig om. Detta kallas den “bakomliggande populationen” (på engelska “population of interest”).
Bestäm var du kan hitta ett stickprov av denna population. Detta kallas urvalsram (på engelska “sampling frame”).
Bestäm lämplig urvalsstrategi för stickprovet (på engelska “sampling method”).
Bestäm inklusions- och exklusionskriterier.
Bestäm vilka data (vilka variabler) som skall samlas in.
Skatta stickprovsstorleken du behöver för att kunna svara på dina frågor.
Planera praktikaliteter runt datainsamlingen.
Slutligen samla in data.

Punkt 1-7 ovan bör beskrivas i projektplanen och finnas med i det underlag etikprövningsmyndigheten har för att ta ställning till ditt projekt. Mycket av arbetet runt datainsamlingen görs alltså långt innan själva datainsamlingen sker.

Bestämma bakomliggande population

De flesta studier är urvalsundersökningar så deltagarna i din studie kan ses som ett stickprov tagna från en bakomliggande population. Resultaten från ditt projekt kan sedan användas för att dra slutsatser om den bakomliggande populationen. För att detta skall fungera måste du ha klart för dig vilken din bakomliggande population är.

Ett exempel på bakomliggande population kan vara: kvinnor i åldersgruppen 40-70 år med diagnostiserad sockersjuka typ II och som bor i ett höginkomstland i Europa eller Nordamerika. Detta är en stor bakomliggande population och det vore omöjligt att undersöka alla dessa. Du tar därför ett stickprov som får representera den bakomliggande populationen.

Bestäm urvalsram

Urvalsramen (engelska “sampling frame”) är de som av praktiska skäl är tillgängliga för ditt projekt. Exempelvis skulle det kunna vara kvinnor i åldersgruppen 40-70 år med diagnostiserad sockersjuka typ II och som har kontakt med någon vårdcentral som finns i Alingsås kommun. Du inkluderar sällan alla som finns i urvalsramen utan bara ett stickprov från den.

Det är viktigt att fundera på i vilken utsträckning din urvalsram liknar eller skiljer sig från den bakomliggande population du vill kunna uttala dig om. Ibland låter man urvalsramen vara samma som den bakomliggande populationen, exempelvis kan man använda hela det svenska befolkningsregistret om man vill få ett stickprov ur den svenska befolkningen för att uttala sig om just den svenska befolkningen.

Att urvalsram och bakomliggande population är exakt samma är undantag. I de flesta fall är urvalsramen mycket mindre än den bakomliggande populationen. Oftast liknar urvalsramen den bakomliggande populationen men överensstämmelsen är sällan 100%. Det kan finnas vissa typer av personer i din urvalsram som inte finns i den bakomliggande populationen (kallas övertäckning) och tvärtom att den bakomliggande populationen har en viss typ av personer som saknas i din urvalsram (kallas undertäckning).

Det är viktigt att försöka få en grov uppfattning om i vilken utsträckning det förekommer övertäckning respektive undertäckning. Ibland kan det gå att få siffror på detta genom att jämföra övergripande beskrivande statistik som finns tillgänglig för både den bakomliggande populationen och för urvalsramen. Ofta går det inte att få siffror på detta men ett kort resonemang på 1-2 meningar kring över- respektive undertäckning är önskvärt när man redovisar sina resultat.

Bestäm urvalsstrategi

Det finns två olika huvudspår när det gäller urvalsstrategier, icke-slumpmässigt urval och slumpmässigt urval. I det sistnämnda spåret är varje individs sannolikhet (chans) att bli vald lika och känd i förväg. I det förstnämnda spåret är varje individs sannolikhet att bli vald okänd.

Icke slumpmässigt urval

“Man tager vad man haver”, d.v.s. man undersöker de individer som man har lättast att få tag i. Resultaten gäller då för de individer som är undersökta. Gäller de även för individer som inte är undersökta? Kanske, men det vet man oftast inte. Detta är det stora problemet som gör att man, framför allt vid epidemiologiska undersökningar, bör undvika icke slumpmässigt urval. Trots detta används det av kostnadsskäl eller i situationer där man av olika skäl inte har så stora krav på att få exakt rätt svar. nedan beskrivs några olika specialvarianter av icke slumpmässigt urval:

Bekvämlighetsurval (engelska “convenience sampling”)

Man väljer subjektivt individer utan annan tanke än att de skall vara så lätta som möjligt att få tag i. Det kan vara arbetskamrater, vänner eller släktingar. Frågan som förblir obesvarad är hur de utvalda individerna liknar den bakomliggande population där resultaten skall tillämpas. Det är få situationer när detta är vetenskapligt acceptabelt.

Typiskt urval

Man väljer subjektivt individer som man tycker är typiska för den bakomliggande population av individer som man senare vill uttala sig om. Sannolikheten för varje individ att bli utvald är i regel helt okänd så man vet inte om dessa representerar den bakomliggande populationen.

Snöbollsinsamling (engelska “snowball sampling”)

De första deltagare man inkluderar ombeds att själva rekrytera några till som i sin tur ombeds att rekrytera ytterligare några och så vidare. Stickprovet växer då som en snöboll som rullar. Vetenskapligt är detta inte ett bra alternativ men ofta kan det vara det enda alternativet för att nå personer som normalt är svåra att nå ut till. Exempelvis kan det röra sig om hemlösa, missbrukare, prostituerade, etc.

Telefonurval eller “på stan” urval

Man ringer upp telefonnummer som man har kommit över och de som svarar och accepterar deltagande får ingå i undersökningen. Telefonnumren kan komma från någon lista eller så slumpas telefonnummer fram. Detta förfarande riskerar att drabbas av olika systematiska fel. Om man ringer från en lista som presenteras av någon av de telefonkataloger som finns på Internet är det troligt att alla med hemligt telefonnummer sållas bort och de kanske skiljer sig från de som inte har hemligt telefonnummer.

En variant är att ställa sig på en gata i stan och fråga folk om de vill delta i ett projekt. Man har ingen kontroll över vilka som brukar röra sig på stan ofta och vilka som oftast är någon annanstans (hemma, på jobbet eller i löpspåret). detta blir ofta allvarliga felkällor och bör undvikas.

Webbenkäter

Det finns en uppsjö av tekniker för att få svar genom webbenkäter. Nästan alla dessa sker med icke slumpmässigt urval utan någon bortfallsanalys. I slutändan har man ingen aning om svarsfrekvens eller vilken bakomliggande population som svaren representerar. Värdet av detta är ytterst begränsat.

Om man har en lista på individer man vill erbjuda deltagande, skickar ut en individualiserad länk med möjlighet att se vilka som har svarat och vilka som inte svarat blir det genast mycket bättre. Om listan dessutom är framtagen slumpmässigt kan webbenkäten vara ett verktyg för att samla in data som representerar ett slumpmässigt urval av urvalsramen.

Ja-sägar urval

Alla i en bakomliggande population tillfrågas/inbjuds om de vill delta och de som accepterar/hör av sig undersöks. Om endast en liten del avstår liknar det en totalundersökning. Om en stor del avstår är frågan vilka de som accepterat deltagande kan tänkas representera. Ja-sägar urval bör undvikas.

Kvoturval (engelska “quota sampling”)

Antag att vi vet att i den bakomliggande population vi vill uttala oss om finns 40% män och 60% kvinnor. Man bestämmer då att undersöka 40 män och 60 kvinnor som handplockas på enklast möjliga sätt, exempelvis de första 40 männen respektive 60 kvinnorna som kommer till mottagningen. Man plockar fram individer enligt ett bekvämlighetsurval för att få på förhand bestämda antal i varje grupp. Detta kallas ibland felaktigt för stratifierat urval (se nedan). Skillnaden är att vid stratifierat urval, som är en variant av slumpmässigt urval, är sannolikheten för varje individ som teoretiskt kan tänkas bli vald bestämd i förväg medan vid kvoturval sker urvalet inte slumpmässigt och då kan inte sannolikheten för en individ att bli vald bestämmas i förväg.

Konsekutivt urval (engelska “consecutive sampling”)

Alla individer som passerar en mottagning under en viss fördefinierad tidsperiod och som uppfyller våra inklusionskriterier blir vårt stickprov. En fara med detta är att det finns en tidseffekt, något fenomen som verkar just under vår tidsperiod och som påverkar resultatet.

För att undvika tidseffekter bör insamlandet av individer pågå så länge att tidseffekter rimligtvis undviks. En speciell variant av konsekutivt urval är att undersöka en viss del av patienterna som under en tid kommer till en mottagning. Antingen kan det vara var 7:e patient eller att man under en tidsperiod väljer ut alla patienter som kommer till en mottagning var 7:e dag. I sistnämnda fallet väljs en viss veckodag. Kanske skiljer sig måndagspatienterna från fredagspatienterna? I det läget är det kanske bättre att välja patienter så att man omväxlande får patienter från olika veckodagar och olika klockslag. Om ett konsekutivt urval där en viss del av patienterna väljs pågår så länge att nästan hela mottagningens patientstock hinner passera revy blir det nästan samma sak som systematiskt urval.

Om det handlar om patienter som kallas på återbesök enligt ett förutbestämt schema som är lika för alla är risken för systematiska fel mindre. detta är emellertid ovanligt. I de flesta fall kommer patienter olika ofta till en klinik. Mångbesökare som kommer ofta har större chans att bli inkluderade än de som kommer mer sällan. Mångbesökare kanske skiljer sig från de som besöker sällan och det kan göra att vårt stickprov inte representerar vår bakomliggande population. Väntrumsenkäter faller ofta i denna fallgropen och det går inte att säga vilken bakomliggande population de som svarat representerar.

Konsekutivt urval används flitigt i experimentella studier där man är mindre intresserad av att exakt kartlägga exempelvis blodtrycket utan är mer intresserad av att studera olika mediciners (eller andra åtgärders) effekt på blodtrycket.

Slumpmässigt urval (engelska “random sampling”)

Obundet slumpmässigt urval (engelska “= simple random sampling”)

Alla individerna i den bakomliggande populationen har här samma chans att bli valda. Vill man veta andelen i befolkningen med övervikt dras slumpmässigt ett stickprov ur vår urvalsram.

Systematiskt urval (engelska “systematic sampling”)

Här fastställs en systematik enligt vilken individer väljs ut. Det kan exempelvis vara var 10:e eller var 50:e av de patienter som finns i vårdenhetens totala journalarkiv. Man utgår då från den ordning de presenteras i datorjournalen (det kan vara ett unikt id-nummer som datorjournalen tilldelar varje patient). Detta kan i praktiken behandlas som en variant av obundet slumpmässigt urval. Det finns dock en allvarlig potentiell felkälla, nämligen om det finns ett tidsfenomen (eller annat liknande fenomen) som introducerar ett systematiskt fel.

Stratifierat urval (engelska “stratified sampling”)

Alla individer i vår urvalsram delas in i tänkta grupper (strata). Exempelvis kan det vara åldersgrupper och/eller könstillhörighet. Ur varje grupp dras sedan ett slumpmässigt obundet urval. Är andelen individer som väljs i varje grupp lika stor som gruppens andel i vår urvalsram kallas det för proportionellt stratifierat urval. Om det däremot även finns behov av att kunna redovisa resultat separat från varje strata kan man ibland låta andelen individer som tas ur de olika grupperna skilja sig från gruppernas representation i populationen. Antalet grupper (strata) bör inte överstiga 6 .

Klusterurval = gruppurval (engelska “cluster sampling”)

Individer finns ofta naturligt grupperade. Exempel på naturliga grupperingar kan vara elever i skolklasser, läkare på en vårdcentral, patienter som sköts på olika sjukhus, individer som besöks av olika instruktörer, etc. Det kan vara opraktiskt all välja individer helt obundet, exempelvis bara några elever i en klass. Lösningen är att slumpmässigt välja ett stickprov av grupper (klasser eller liknande).

Det finns två varianter. Om gruppstorleken inte är alltför stor undersöks sedan alla individer i de utvalda grupperna. Det kallas enstegs klusterurval (engelska “single-stage cluster sampling”). Om varje grupp är stor kan det vara praktiskt att ur varje utvald grupp istället göra ett slumpmässigt obundet urval. Det kallas tvåstegs klusterurval (two-stage cluster sampling).

Nackdelen med klusterurval är att merparten av grupperna (merparten av den bakomliggande populationen) är oftast inte alls representerade i stickprovet och detta kan medföra systematiska fel om grupperna skulle skilja sig åt på ett oväntat sätt.

Vilken urvalsmetod skall jag välja?

De flesta icke slumpmässiga urvalen är Ok för pilotstudier där man vill samla mer information innan man planerar en större randomiserad kontrollerad studie.
Konsekutivt urval är OK för en tidig fas 1 eller fas 2 experimentell studie där man vill testa om en intervention har effekt. Man är här inte lika intresserad av att göra en exakt nulägesbeskrivning utan intresset ligger mer på att undersöka vilka förändringar olika interventioner medför. Eftersom nulägesbeskrivningen inte är det viktigaste kan man välja ett enklare förfarande när man tar fram stickprovet.
Det är önskvärt med någon slags slumpmässigt urval för en större fas 3 experimentell studie. Dock görs de flesta fas 3 med konsekutivt urval. Det kan anses OK om man kan påvisa att det urval som gjorts rimligtvis representerar den bakomliggande population där man tänker sig att interventionen skall tillämpas efter studien är klar.
Vid observationsstudier bör man sträva efter att använda någon form av slumpmässigt urval. Då har systematiskt urval och klusterurval fördelen av att vara praktiskt enkla och de minskar ofta kostnaden för att samla in stickprovet .
Vid analys av data är obundet slumpmässigt urval eller stratifierat urval i de flesta fall något bättre än systematiskt urval eller klusterurval. Motivet är att systematiskt urval eller klusterurval har lite större risk att drabbas av systematiska fel.
Proportionellt stratifierat urval och slumpmässigt obundet urval fungerar likartat och resultatet för att skatta den bakomliggande populationens medelvärden och variation (exempelvis genom standardavvikelse) blir detsamma .
Icke proportionellt stratifierat urval innebär också en möjlighet att låta grupper som är små i populationen bli bättre representerade. Denna variant av stratifierat urval är krångligare att använda (framför allt vid den statistiska bearbetningen) men den ger bättre precision (mindre slumpmässig variation) än slumpmässigt obundet urval .

Skall urvalet vara homogent eller heterogent?

Antag att du vill studera effekten av en ny revolutionerande sjukgymnastisk behandlingsmetod mot ryggvärk. Skall du då bara inkludera patienter med en snäv definition av just den typ av ryggbesvär som du tror behandlingen är effektivast mot (homogen grupp) eller skall du inkludera patienter med varierande sorters ryggbesvär (en heterogen grupp) liknande verkligheten på de flesta sjukgymnastmottagningar? Denna fråga är inte svart-vit utan har en gråskala, det vill säga man kan tänka sig många olika alternativ mellan en extremt homogen grupp respektive en mycket heterogen grupp.

Ur statistisk synpunkt är det bäst att göra en rent experimentell studie med en mycket homogen grupp och detta används också mest när man bara vill påvisa om en behandling överhuvud taget har effekt (explanatory study). Ur generaliseringssynpunkt och för att efterlikna verkliga livet vill man hellre sträva efter ett rimligt heterogent urval som efterliknar den brokiga verkligheten. Heterogent urval används oftast i fas 3-studier av nya läkemedel när man vill ha ett resultat som går att generalisera och tillämpa ute i vårdens vardag (pragmatic study). Denna diskussion landar sedan i konstruktionen av

Urvalskriterier – inklusions- och exklusions kriterier

Sift out the pearls from the dust — Behåll bara det som
uppfyller urvalskriterierna

Urvalskriterier är kriterier som används för att identifiera de som är lämpliga att inkludera. Det finns två olika sätt att använda inklusions och exklusions kriterier:

Alternativ A: Dina personer skall uppfylla alla inklusionskriterier. Några av inklusionskriterierna kan vara avsaknad av graviditet, demens, cancer, etc. Exklusionskriterier tillämpas senare ifall det blir aktuellt att utesluta några som tidigare inkluderats . Här används enbart inklusionkriterier för att inkludera och exklusionskriterier tillämpas bara senare vid behov. I detta sätt att tillämpa urvalskriterier behöver tvärsnittsstudier, där individer bara undersöks en gång, inte ha några exklusionskriterier över huvud taget.

Alternativ B: Både inklusions- och exklusionskriterier används initialt för att välja ut de som erbjuds delta. Inklusionskriterierna är då ofta breda, exempelvis om ålder, kön och ev geografisk tillhörighet, och det krävs att man uppfyller samtliga inklusionskriterier. Exklusionskriterierna är ofta smalare och mer specifika, och handlar om faktorer som kan maskera en behandlingseffekt, indikera en deltagare som kanske har låg sannolikhet att fullfölja studien så som planerat, exempelvis cancer eller psykos eller har en faktor som kan påverka utfallet, exempelvis en viss sjukdom .

Både alternativ A och B används och det är klokt att vara medveten om skillnaden. Det är ett vanligt missförstånd att exklusionskriterierna bara är spegelbilden av inklusionskriterierna. Exempelvis anges ibland att vara kvinna som ett inklusionskriterium och samtidigt anges att vara man som ett exklusionskriterium. Om inklusionskriteriet är att vara kvinna så har män aldrig blivit inkluderade och då finns ingen anledning att senare utesluta dem. Det är alltså viktigt att exklusionskriterierna tillför något som inte redan finns i inklusionskriterierna.

Operationalisering

Nu är det dags att bestämma exakt in i detalj vilken data som skall samlas in. Detta kallas operationalisering. Nästa alltid samlas flera olika typer av data in. Insamlade data arrangeras i kolumner och rader. Vi använder beteckningen “variabel” och har en kolumn för varje variabel. Raderna kallar vi observationer. En observation är ofta en individ eller patient. Exempel på variabler kan vara ålder, kön, vikt, blodtryck, etc. Vi använder insamlad data för två huvudsakliga syften:

Att beskriva vilka individer som inkluderats i studien. detta kallas beskrivande statistik och talar om för läsaren av din rapport om dina resultat kan tänkas vara tillämpliga på deras individer / patienter.
För att dra slutsatser om det som studien syftade till att besvara. Ofta använder vi då analytisk statistik.

Många variabler används både för beskrivande och analytisk statistik.

Many variables are used for both descriptive and inferential statistics. Variables used for inferential statistics should be submitted to sample size calculations (see below). Sometimes the sample size calculation may show that one variable requires an unreasonably high number of observations / patients. In that scenario this variable might be ditched completely or it might be kept solely for descriptive statistics. There is usually an interplay between the preliminary list of desired variables and the sample size calculation before you end up with the final list of variables intended for descriptive and / or inferential statistics. The type of data to be collected can be:

Direct measurements (such as measurements of the body and its chemistry, body reactions)
Indirect measurements of knowledge, attitudes or perceptions using surveys or structured interviews
1. Binary questions (Yes/No)
2. Surveys measuring attitudes or perceptions (Likert scale, Visual analogue scale or similar)
3. Surveys with other fixed response alternatives
Structured observations
1. Structured observations of behavior
2. Structured observations of events or processes

Skattning av stickprovsstorlek

Vid kvantitativ ansats är det viktigt att göra en skattning av stickprovsstorlek framför allt för variabler som används till analytisk statistik. Detta innebär att göra en del antaganden och utifrån dem köra den planerade analytiska statistiken baklänges. Man utgår då från ett tänkt resultat och ser hur många observationer som krävs för att få det resultatet. Läs mer om detta på sidan om skattning av stickprovsstorlek.

Planera praktikaliteter runt datainsamlingen

(Detta avsnitt är under konstruktion. Vi beklagar olägenheten.)

Genomför datainsamlingen

(Detta avsnitt är under konstruktion. Vi beklagar olägenheten.)

Datainsamling vid kvalitativ ansats