Hur många fall för att belägga hypotes
Val från statistisk test
Detta avsnitt beskriver dem viktigast statistiska testerna samt deras användningsområde. detta finns statistiska tester till samtliga tänkbara typer från jämförelser. varenda statistiskt test tar avstamp i nollhypotesen. ifall man jämför en medelvärde till numeriskt värde grupper således innebär nollhypotesen för att man utgår ifrån för att detta ej finns någon skillnad mellan grupperna.
ifall man undersöker angående enstaka prediktor (t ex blodtryck) äger innebörd på grund av en utfallsmått (t ex död) tillsammans med hjälp från regression således äger man även ett nollhypotes samt den innebär för att man utgår ifrån för att blodtryck ej besitter något samband tillsammans död (dvs regressionskoefficienten till blodtryck = 0).
En hypotes är en specifik förutsägelsepå grund av för att värdera vilket statistiskt test såsom existerar lämpligt måste man alltså beakta variablernas natur samt samband. Man skiljer vid kontinuerliga samt kategoriska variabler.
En kategorisk variabel (även kallad nominal) äger minimalt numeriskt värde kategorier (även kallat nivåer). Kön existerar enstaka kategorisk variabel samt detta finns (oftast inom kliniska studier) numeriskt värde nivåer, nämligen man samt kvinna.
Etnicitet existerar även enstaka kategorisk variabel samt var man exempelvis Sydamerikan, Svensk, Asiat, Nordamerikan etc finnas. inom fallet tillsammans med kön samt etnicitet finns ingen inbördes ordning mellan kategorierna (dvs man kunna ej ordna kategorierna inom fallande alternativt stigande ordning vid en naturligt sätt). detta finns dock kategoriska variabler såsom besitter ett naturlig ordning samt ett sådan variabel kallas ordinal.
modell vid enstaka kategorisk variabel liksom är ordinal existerar utbildningsnivå, såsom är kapabel kategorieras ifrån nedsänkt, medel mot upphöjd träning. Vissa ordningsföljd variabler existerar dessutom från typen intervall, vilket innebär för att avståndet mellan dem olika kategorierna existerar jämn.
Den beskriver i konkreta (snarare än teoretiska) termer vad du förväntar dig kommer att hända i din studieoss kunna exempelvis producera inkomstkategorier (månadsinkomst) genom för att producera grupperna: 15000-20000, 20000-25000, 25000-30000 osv.
En kontinuerlig variabel existerar liksom regel en mätvärde alternativt ytterligare numerisk siffra. Ålder inom kalenderår, kroppsvikt inom kilo samt avstånd inom meter existerar samtliga kontinuerliga variabler.
Ur enstaka aspekt existerar den kontinuerliga variabeln lik ett intervall-variabel, eftersom avståndet mellan varenda siffra existerar lika stort. Faktum existerar för att enstaka intervall-variabel tillsammans en stort antall nivåer förmå betraktas likt ett kontinuerlig variabel.
Statistiska tester samt regressionsmodeller bygger vid matematiska antaganden.
Testets alternativt modellens validitet existerar avhängig från för att vissa antaganden existerar fullbordade. en vanligt antagande existerar variabelns leverans, eftersom dem flesta tester egentligen jämför distributioner. för att jämföra numeriskt värde gruppers medelvärde innebär egentligen för att man jämför distributionerna.
Antaganden ifall normalfördelning till kontinuerliga variabler
T-test samt ANOVA (analysis of variance) kräver inte för att dem värdena ifrån dem individuella observationerna inom stickprovet skall existera normalfördelade.
Däremot kräver dessa tester för att själva medelvärdena skall existera normalfördelade, sålunda mot vida för att angående man tar flera stickprov samt kalkylerar medelvärde inom varenda därför skall dessa medelvärden artikel normalfördelade. en sätt för att garantera för att medelvärdena existerar normalfördelade existerar för att undersöka angående dem individuella observationerna inom stickprovet uppvisar ett normalfördelning.
Vidare kommer ändå varenda medelvärden, oavsett den underliggande fördelningen, närma sig normalfördelning allteftersom stickprovets storlek ökar. angående man besitter >30 observationer är kapabel man anta för att normalfördelning föreligger. (För specifikation kunna läsaren förkovra sig i central limit theorem).
För regression vilket baseras vid OLS (ordinary least squares) därför måste residualerna artikel normalfördelade.
ifall både den beroende variabeln samt prediktorerna existerar normalfördelade således garanterar detta (i detta närmaste) för att residualerna existerar normalfördelade. Notera dock för att varken den beroende variabeln alternativt prediktorerna måste artikel normalfördelade på grund av för att residualerna skall bli det.
Val från statistiskt test: 3 variabler alternativt fler
graph TD V(3 variabler alternativt fler) ---> K1(Kontinuerlig beroende variabel) & K2(Kategorisk beroende variabel) K1 ---> ML(Multipel regression) K2 ---> Två(Beroende variabel tillsammans 2 kategorier) ---> LR(Logistisk regression) K2 ---> Tre(Beroende variabel tillsammans 3 kategorier alternativt fler) ---> MR(Multinomial logistisk regression)
Val från statistiskt test: 1 variabel
graph TD V(1 variabel) ---> Kategorisk & Kontinuerlig Kategorisk ---> Two1(2 grupper) ---> One(One-proportion test) Kategorisk ---> Two2(>2 grupper) ---> Ki(Chi-square goodness-of-fit test) Kontinuerlig ---> P1(Parametrisk) ---> X("One-sample students t-test") Kontinuerlig ---> P2(Icke parametrisk) ---> Y("One-sample Wilcoxon test")
Val från test: 2 kontinuerliga variabler
One-sample t-test
Som namnet antyder används detta test ifall man äger ett assemblage till vilken man önskar utföra enstaka jämförelse.
Testet används ifall man önskar undersöka ifall en medelvärde skiljer sig ifrån en hypotetiskt värde. ifall man undersöker längd inom enstaka skolklass samt noterar för att medellängden inom klassen existerar 180 cm därför är kapabel man undersöka ifall detta medelvärdet skiljer sig ifrån siffran 175 cm (som alltså existerar en hypotetiskt värde).
I R används funktionen t.test till för att genomföra one-sample t-test.
oss skall idag jämföra angående medelåldern på grund av lungcancerpatienter inom en klassiskt R-dataset skiljer sig ifrån en hypotetiskt värde:
Vi erhåller en P-värde på 0.0000642 vilket innebär för att medelvärdet till patienterna skiljer sig ifrån 60. One-sample t-test lämpar sig på grund av normalfördelade variabler tillsammans interavall-skala.
One-sample mittvärdet i en uppsättning data test
Detta test motsvarar ovanstående test dock istället existerar detta medianen vilket undersöks.
inom detta fall behöver oss endast anta för att variabeln existerar vid ordinal-skala. I R används funktionen wilcox.test på grund av för att genomföra one-sample mittvärdet i en uppsättning data test.
Ibland är en studie utformad för att vara utforskande (se induktiv forskning)modell följer:
Binomialt test
Binomialt test används på grund av kategoriska variabler liksom besitter numeriskt värde nivåer. Testet kunna att fatta beslut eller bestämma något ifall enstaka andel vilket observeras inom stickprovet skiljer sig ifrån ett hypotetisk andel. inom R används funktionen prop.test till för att genomföra binomialt test.
inom exemplet nedan skall oss undersöka ifall andelen kvinnor inom identisk dataset liksom tidigare (lung) existerar lika tillsammans med 0.5 (dvs ifall kvinnor utgör hälften från varenda patienterna).
Chi-square goodness of fit
Chi-square goodness of passform existerar ett extension från detta binomiala testet därför mot vida för att oss på denna plats är kapabel testa enstaka variabel tillsammans med fler än 2 kategorier.
Det är alltså inte bara en gissning utan ska baseras på tidigare studier, teori eller liknandeoss kunna alltså testa ifall fördelningen från cancertyp skiljer sig ifrån en hypotetiskt värde. Ponera för att variabeln cancertyp äger nästa fyra nivåer: lungcancer, koloncancer, njurcancer samt levercancer. Vår ett antagande eller en förklaring som föreslås för att förklara något existerar för att fördelningen mellan dessa fyra typer existerar jämn, därför för att vardera utgör 25%.
Den förväntade (expected) värdet på grund av varenda kategori existerar alltså 25% (0.25). till för att testa detta används funktionen chisq.test inom R i enlighet med följande:
Independent samples t-test
Detta test används till för att jämföra medelvärden inom numeriskt värde grupper såsom existerar oberoende från varandra.
Oberoende syftar mot för att grupperna ej får påverka varandra. Låt oss ta numeriskt värde modell på grund av för att förtydliga detta:
- Om en antal patienter vägs innan samt efter kirurgisk behandling till fetma således äger oss numeriskt värde värden såsom skall jämföras, nämligen vikten innan samt vikten efter behandling.
inom detta fall existerar dock vikten innan samt efter behandling beroende från varandra eftersom detta existerar identisk personer inom båda distributionerna. inom detta fall använd dependent samples t-test.
- Om oss önskar jämföra längden vid män samt kvinnor vid relaterat till göteborg högskola därför besitter oss alltså numeriskt värde medelvärden såsom skall jämföras.
Dessa medelvärden existerar dock ej beroende från varandra samt då används independent samples t-test.
I identisk dataset liksom tidigare jämför oss för tillfället ifall män samt kvinnor existerar lika gamla.
P-värdet blev 0.06394 vilket existerar större än 0.05 samt därför kunna oss inte tillsammans säkerhet yttra för att detta existerar någon åldersskillnad.
oss fullfölja ytterligare en test var oss jämför kalorier inom kosten.
I detta fall fanns P-värdet 0.01989 vilket indikerar för att detta finns enstaka statistiskt signifikant skillnad inom kalorier mellan män samt kvinnor.
Wilcoxon-Mann-Whitney test
Detta test används inom identisk situation vilket independent samples t-test dock skillnaden existerar för att Wilcoxon-Mann-Whitney test ej förutsätter för att variabeln existerar normalfördelad.
Däremot förutsätter detta testet för att variabeln existerar vid ordinal skal. till för att jämföra män samt kvinnors ålder vid identisk vis sålunda skrivs nästa inom R:
Chi-square test (Chi-två test, χ2 test)
Chi-två test används på grund av för att undersöka numeriskt värde kategoriska variabler. Testet bygger vid för att man jämför observerade frekvenser (för varenda variabels nivåer) samt jämför tillsammans förväntade frekvenser. Man provar hypotesen för att dem observerade frekvenserna existerar (mer alternativt mindre) likvärdig tillsammans dem förväntade frekvenserna.
Inom vetenskapen ställs hypoteser upp som teoretiska förklaringar av iakttagna fenomen, och hypotesens möjliga riktighet behöver därefter prövas genom vidare iakttagelser eller experimentifall oss, exempelvis, undersöker ifall detta existerar lika flera män samt kvinnor liksom får hjärtinfarkt genom för att nyttja variabeln kön vilket existerar dikotom (man alternativt kvinna) samt hjärtinfarkt (ja alternativt nej). angående nollhypotesen existerar för att andelen män samt kvinnor såsom får hjärtinfarkt existerar lika flera således förväntar oss oss för att observera lika flera män samt kvinnor inom båda nivåerna för hjärtinfarkt.
Chi-två-testet förmå illustreras tillsammans ett tabell.
oss undersöker totalt 40 personer tillsammans hjärtinfarkt.
| Kön | O | E | (O-E)2 | ((O-E)2) / E |
|---|---|---|---|---|
| Man | 32 | 20 | 144 | 144/20 |
| Kvinna | 8 | 20 | 144 | 144/20 |
| Summa | 40 | 40 | 288/20=14,4 |
Värdet vid χ2 är på denna plats 14.4.
till för att testa angående detta existerar statistiskt signifikant måste oss titta inom chi-två-tabell efter värdet 14.4 tillsammans 1 frihetsgrad. Antal frihetsgrader existerar kön-variabelns antal nivåer (=2) minus 1, dvs 2–1 vilket blir 1. inom tabellen framgår detta kritiska värdet på grund av detta aktuella χ2 samt antal frihetsgrader; ifall χ2 existerar större än detta kritiska värdet därför förkastas nollhypotesen.
Observera för att all statistisk mjukvara utför dessa beräkningar automatiskt samt returnerar en P-värde till nollhypotesen. slutligen dock ej minimalt skall nämnas för att Chi-två-test förutsätter för att detta existerar minimalt 5 förväntade observationer finns inom varenda fängelse inom korstabellen ovanför (Tabell 1).
angående antalet personer inom någon fängelse existerar <5 därför bör Fisher's exact test användas istället.
Observera för att dem variabler såsom ingår inom en Chi-två test kunna äga fler än numeriskt värde nivåer samt detta behöver ej finnas lika flera nivåer inom dem båda variablerna.
I nästa modell undersöker oss ifall lika flera män samt kvinnor dog inom lungcancer-studien:
Fisher's exac test
Fisher's exact test existerar likvärdig tillsammans Chi-två test dock används istället då någon fängelse innehåller färre än 5 förväntade observationer.
Fisher's exat test kunna användas oavsett hur ett fåtal antalet förväntade observationer existerar. Motvsrande kod inom R blir:
One-way ANOVA
One-way ANOVA (envägs variansanalys)
One-way ANOVA används då man besitter enstaka kategorisk oberoende variabel (med numeriskt värde alternativt fler nivåer) samt ett kontinuerlig normalfördelad beroende variabel (på intervall-skala).
på denna plats jämförs alltså angående fördelningen på grund av den kontinuerliga variabeln existerar den identisk på grund av dem olika nivåerna från den kategorisk variabeln. Exempelvis skulle oss behärska jämföra angående kroppsvikten existerar identisk till dem olika etniska grupperna inom ett gymnasieskola.
I R kommer oss nyttja dataset "bladder" liksom även finns inom survival-paketet.
oss laddar "bladder" genom ledning "data(bladder)". Då laddas faktiskt tre varianter från "bladder", varav oss kommer nyttja "bladder1".
Ett syfte kan specificeras och konkretiseras med en hypotes som ett alternativ eller komplement till en frågeställninginom detta dataset kommer oss undersöka ifall första tumörstorlek skiljer sig inom relation mot detta slutliga utfallet. Tumörstorleken beskrivs tillsammans med variabeln size såsom existerar ett kontinuerlig variabel. Utfallet beskrivs tillsammans variabeln status där 0 = överlevde, 1 = återfall från cance, 2 = död inom cancer samt 3 = död ytterligare orsak.
Tumörstorlek kommer alltså jämföras inom dessa fyra grupper.
P-värdet är 0.249 vilket innebär för att oss ej kunna förkasta nollhypotesen (som säger för att detta ej existerar någon skillnad inom första tumörstorlek). Således existerar tumörerna lika stora nära studiens start.
Kruskal Wallis test
Kruskal Wallis test används då man besitter enstaka oberoende variabel tillsammans numeriskt värde alternativt fler nivåer samt enstaka beroende variabel liksom existerar ordinal-skala.
Testet liknar envägs ANOVA dock existerar icke-parametriskt, vilket innebär för att den beroende variabeln ej behöver existera normalfördelad interval.
Paired t-test (t-test till beroende mätningar)
Om man önskar jämföra numeriskt värde värden liksom existerar beroende från varandra förmå man nyttja paired t-test. Detta förutsätter för att värdet likt skall jämföras existerar normalfördelat.
Värdena existerar likt regel beroende från varandra angående dem existerar hämtade ifrån identisk individ, vilket existerar fallet nära mätning nära numeriskt värde tidpunkter. detta förmå exempelvis artikel mätning från kroppsvikt innan samt efter ett behandling till övervikt.
Följande R-kod existerar endast på grund av för att illustrera funktionen inom R.
dem uppgifter såsom används existerar egentligen ej beroende från varandra.
Wilcoxon signed rank sum test
Detta existerar detta icke-parametriska alternativet mot paired t-test samt används alltså då man ej är kapabel förutsätta för att den beroende variabeln existerar normalfördelad tillsammans med mellanrum. Testet förutsätter dock för att variabeln existerar ordinal åtminstone.
McNemar test
McNemars test används då man undersöker enstaka beroende kategorisk variabel inom numeriskt värde grupper liksom existerar relaterade.
Att skriva en hypotes innebär att du har en fråga att besvaraTest ä alltså analogt tillsammans paired t-test dock den beroende variabeln existerar kategorisk samt besitter numeriskt värde nivåer inom detta fall. T ex är kapabel ni att fatta beslut eller bestämma något ifall andelen patienter likt ägde nedstämdhet (ja/nej) innan samt efter behandling tillsammans med beteendeterapi skiljer sig.
Se modell inom R genom för att skriva: ?mcnemar.test inom konsolen.
One-way repeated measures ANOVA
Detta test motsvarar envägs ANOVA (one-way ANOVA) dock inom detta fall går detta god ifall identisk individ bidrar tillsammans fler än 1 mätning (dvs detta förekommer upprepade mätningar till identisk individ(er).
Den oberoende variabeln existerar alltså kategorisk tillsammans med numeriskt värde alternativt fler nivåer. Den beroende variabeln existerar normalfördelad vid intervall-skala. oss att föreslå eller råda något för att man istället till one-way repeated measures anova använder mixed models (random effects models) likt existerar effektivare.
Korrelation
Detta äger diskuterats inom kapitlet angående korrelation samt regression.
Simple linjär samt multipel regression
Detta besitter diskuterats inom kapitlet ifall simpel linjär regression samt multipel (linjär) regression.
Simpel logistisk regression samt multipel logistisk regression
Detta äger diskuterats inom kapitlet angående logistisk regression.
Analysis of covariance (ANCOVA)
ANCOVA existerar likvärdig tillsammans med ANOVA dock inom detta fall ingår, utöver enstaka kategorisk prediktor, även ett kontinuerlig prediktor.
ANCOVA förmå därför ersättas tillsammans multipel regression.
Referenser
Ovanstående existerar inom mångt samt många en referat från IDREs guide mot omröstning från test.