Kommentti: Tilastollisen merkitsevyyden korostaminen johtaa helposti vääriin johtopäätöksiin

Kvantitatiivisessa sosiologiassa on laajasti käytössä nollahypoteesitestauksen päättelymenetelmä. Sen rutiininomainen käyttö on kuitenkin kerännyt viime vuosina kritiikkiä. Tutkijat ymmärtävät usein nollahypoteesitestauksen käsitteitä väärin ja saavat sen pohjalta helposti, mutta virheellisesti kuvan näennäisen varmoista, objektiivisista ja sosiologisesti merkittävistä tuloksista.

 

Sosiologisessa määrällisessä tutkimuksessa havainnoidaan ihmisten, ryhmien ja yhteisöjen toimintaa, mielipiteitä ja asenteita. Tyypillisesti tutkimuksissa kerätään otosaineisto, jota analysoidaan tilastollisin menetelmin. Yhtenä tavoitteena on päätellä, esiintyvätkö otosaineistosta tehdyt havainnot eli tutkimustulokset myös koko kiinnostuksen kohteena olevassa perusjoukossa kuten väestössä. Tutkijan saadessa mielenkiintoisen tutkimustuloksen – esimerkiksi, että uskovaiset ovat keskimäärin onnellisempia kuin ateistit (fiktiivinen löydös) – hän haluaa tietää, päätyikö otokseen sattumalta enemmän onnettomia ateisteja tai onnellisia uskovaisia, vai löytyykö tällainen ero myös koko väestössä?

Vastatakseen näihin kysymyksiin tutkijat perinteisesti soveltavat aineistossa löydettyihin tuloksiinsa usein nollahypoteesitestauksen päättelymenetelmää. Tällöin tutkija asettaa ensin nollahypoteesin, jossa lähtöoletuksena on, että todellisuudessa eroa (esim. onnellisuudessa) ei ole, vaan mahdollisesti havaittava ero johtuu sattumasta (eli otokseen olisi sattumalta päätynyt epätyypillinen joukko tutkittavia). Tämän jälkeen tutkija laskee niin sanotun p-arvon. Mikäli p-arvo jää alle valitun rajan, esimerkiksi viiden prosentin (eli p<0,05), päätetään yleensä, että tulos on ”tilastollisesti merkitsevä”. Tällöin nollahypoteesin mukainen tilanne nähdään epäuskottavana vaihtoehtona, joten se hylätään ja vastahypoteesi saa tukea: aineistossa havaitun ateistien ja uskovaisten välisen onnellisuuseron uskotaan esiintyvän myös koko väestössä. Jos p-arvo olisikin suurempi kuin viisi prosenttia, tulos olisi tulkittu päinvastoin: tällöin olisi todennäköistä, että havaittu ero on vain sattumaa, eli uskovaisten ja ateistien välillä ei välttämättä todellisuudessa ole eroa eikä nollahypoteesia voi täten hylätä. Monesti jopa päätellään, että nollahypoteesi on oikein eli eroja ei todellisuudessa ole.

Moni määrällinen tutkimus etenee yllä kuvatulla kaavalla, vaikka yllä esitetty p-arvon tulkintatapa on yleisyydestään huolimatta virheellinen: p-arvo ei kerro siitä, millä todennäköisyydellä nollahypoteesi (tai mikään hypoteesi) on totta.

Mistä nämä mystiset p-arvon ja tilastollisen merkitsevyyden käsitteet oikein kertovat? Kertooko tilastollinen merkitsevyys myös sosiologisesti merkittävästä tuloksesta? Mitä vaihtoehtoja meillä olisi päättelyyn p-arvon tilalle?

Avoinna oleva kasa kirjoja pöydällä.

Mitä p-arvo on ja mitä se ei ole?

Yksi perustavanlaatuisimpia ongelmia nollahypoteesitestauksessa on, että se antaa vastauksia eri kysymykseen kuin mistä tutkijat ovat yleensä kiinnostuneita. Määrällisen sosiologian tutkijat haluavat yleensä tietää, missä määrin aineisto ja analyysi tukevat tai kyseenalaistavat asetettua hypoteesia sosiaalisesta ilmiöstä. Esimerkiksi uskontososiologisten teorioiden pohjalta voisimme ajatella, että uskovaiset ovat keskimäärin ateisteja onnellisempia, koska uskonnollisten yhteisöjen kautta luodut sosiaaliset suhteet ja uskon kautta saatu kokemus elämän merkityksellisyydestä lisäävät onnellisuutta. Tutkiessamme tätä ilmiötä otosaineistollamme haluaisimme tietää, millä todennäköisyydellä havaitsemamme ateistien ja uskovaisten onnellisuuserot esiintyvät myös koko väestössä.

Tämä ei ole kuitenkaan se kysymys, mihin p-arvo vastaa. Sen sijaan nollahypoteesitestaamisessa p-arvo vastaa seuraavaan kysymykseen: olettaen, että todellisuudessa uskovaiset ja ateistit olisivat yhtä onnellisia (eroa ei ole), millä todennäköisyydellä havaitsisimme eron satunnaisesti poimitussa otoksessa? Toisin sanoen p-arvo kertoo todennäköisyydestä havaita ryhmien välisiä eroja otosaineistossa, kun nollahypoteesi on totta väestötasolla. Hypoteesitestauksessa oletuksena on siis, että nollahypoteesi on totta, eli p-arvoa ei voida käyttää arvioimaan sitä, pitääkö nollahypoteesi paikkansa.

P-arvo kertoo todennäköisyydestä havaita ryhmien välisiä eroja otosaineistossa, kun nollahypoteesi on totta väestötasolla.

Onko ero näiden kysymysten välillä käytännössä merkittävä? Filosofiselta näkökannalta tutkijan tavoite (eli arvioida hypoteesin todennäköisyyttä aineiston pohjalta) ja p-arvon vastaus (aineistossa havaitun eron todennäköisyys hypoteettisessa todellisuudessa) ovat selvästi erilaisia. P-arvon ja hypoteesin todennäköisyyden välistä sisällöllistä eroa havainnollistaa seuraava klassinen lääketieteellinen esimerkki.

Skitsofrenian esiintyvyys väestössä on noin kaksi prosenttia. Kuvitellaan, että olisi testi, joka havaitsee skitsofrenian oikein yli 95 prosenttia kerroista, ja yli 97 prosenttia kerroista oikein sen, että potilaalla ei ole skitsofreniaa. Testin pohjalta halutaan arvioida psykiatrin vastaanotolla käyvän henkilön terveydentilaa. Eli:

Nollahypoteesi H0: Potilaalla ei ole skitsofreniaa
Vastahypoteesi H1: Potilaalla on skitsofrenia

Jos vastaanotolle tuleva potilas saa testistä positiivisen tuloksen, auttaako p-arvo lääkäriä päättelemään, onko henkilöllä skitsofrenia? P-arvon voisi rinnastaa tässä esimerkissä todennäköisyyteen havaita (väärä) positiivinen testitulos, kun todellisuudessa potilaalla ei ole skitsofreniaa. Tässä esimerkissä aineistossa oli 30 positiivista testitulosta 979:n sellaisen joukossa, jolla laajemman psykiatrisen arvioinnin mukaan ei ollut skitsofreniaa. Sovellettuna nollahypoteesitestaukseen positiivisen testituloksen p-arvo olisi 0,03 (3 prosenttia), eli ”tilastollisesti merkitsevä”, koska se jää perinteisen 0,05 merkitsevyysrajan alle. Jos psykiatri toimisi nollahypoteesitestauksen yleisen käytännön mukaan, hän päättelisi, että positiivisen tuloksen saanut potilas on diagnosoitava skitsofreeniseksi, koska terveet ihmiset saavat harvoin (alle 5 prosenttia kerroista) positiivisen testituloksen tällä testillä (toisin sanoen, nollahypoteesi hylättäisiin).

P-arvo ei kuitenkaan kerro psykiatrille, millä todennäköisyydellä potilas on terve tai sairas, jos hänen testituloksensa oli positiivinen. Tämän sairaushypoteesin todennäköisyys positiivisen testin jälkeen saattaa kuitenkin olla lääkärille oleellisempi kriteeri päättäessä diagnoosista ja hoitovaihtoehdoista kuin terveiden ihmisten harvinaiset väärät positiiviset tulokset.

Jatketaan samaa esimerkkiä, ja otetaan jälleen henkilö, jonka testitulos näyttää positiivista. Esimerkissä kaikkien positiivisen testituloksen saaneiden joukossa (yhteensä 50 henkilöä), 30 henkilöä osoittautui laajemman tarkastelun jälkeen terveiksi ja vain 20 henkilöllä oli todellisuudessa skitsofrenia. Toisin sanoen, todennäköisyys, että henkilöllä ei ole skitsofreniaa, vaikka testitulos on positiivinen, on tässä esimerkissä yli 60 prosenttia (30 jaettuna 50:llä).

Taulukko skitsofrenia-diagnoosista. Tekstin ymmärtämisen kannalta oleelliset asiat on selitetty auki tekstissä.

Todennäköisyys sille, että henkilöllä ei ole skitsofreniaa, kun testi on positiivinen (60 prosenttia) voi siis olla kaukana p-arvon edustamasta todennäköisyydestä sille, että henkilön, jolla ei ole skitsofreniaa, testi näyttää positiivista (3 prosenttia). Tämän voi laajentaa yleisemmälle tasolle: "todennäköisyys, että tulos löytyy otosaineistosta, kun nollahypoteesi on totta” ei ole sama kuin ”todennäköisyys, että nollahypoteesi on totta, kun olemme löytäneet tietyn tuloksen otosaineistosta”. Silti kvantitatiivisen sosiologian nollahypoteesitestauksessa tämä oleellinen ero tiedostetaan melko harvoin.

Henkilö käyttämässä läppäriä mietteliäs ilme kasvoillaan.

Merkitsevän ja merkittävän rajoilla

”Tilastollisesti merkitsevä” tulos on siis sellainen, jonka p-arvo jää asetetun merkitsevyysrajan alle. Yleisesti käytetyt p-arvon merkitsevyysrajat eivät kuitenkaan perustu mihinkään varsinaiseen teoriaan, vaikka päättelymenetelmän syntyhistoriassa osin painotettiinkin, että p-arvon rajat pitäisi määrittää etukäteen aineisto- ja teoriapohjaisesti, eikä niiden pitäisi perustua ennalta määrättyihin raja-arvoihin. Tyypillisimmin käytetty viiden prosentin raja sai alkunsa niinkin mielivaltaisesta asiasta kuin tilastotieteen oppikirjojen tekijäoikeuksiin liittyvistä riidoista eikä edes sitä oppikirjassaan käyttänyt Ronald Fisher tosiasiassa puoltanut yhden tiukan kynnysarvon nykyisenkaltaista käyttöä. Koska rajat ovat täysin keksittyjä, on ongelmallista ripustautua niihin liian tiukasti. Käytännössä näitä raja-arvoja käytetään määrällisessä sosiaalitieteellisessä tutkimuksessa yleensä kuitenkin melko mekaanisesti merkitsevän tiedon poikkileikkauspisteinä: esimerkiksi p=0.051 tulkitaan ei-merkitseväksi tulokseksi ja p=0.049 merkitseväksi.

Koska rajat ovat täysin keksittyjä, on ongelmallista ripustautua niihin liian tiukasti.

Tilastollisesti merkitseviä ei myöskään pitäisi sekoittaa käytännössä merkittävään tulokseen. Esimerkiksi suurissa aineistoissa erittäin pienten erojen löydökset saavuttavat helposti tilastollisen merkitsevyyden, vaikka niiden yhteiskunnallinen merkittävyys olisikin olematon. Alun esimerkkiä mukaillen, jos uskovaisista 25 prosenttia kokee olevansa onnellisia, mutta ateisteista vain 24 prosenttia, onko tämä mahdollisesti tilastollisesti merkitsevä ero myös sosiologisesti merkittävä? Tulosten merkittävyyttä pitäisi kuitenkin pohtia laajemmin, ja pelkkä löydettyjen yhteyksien ja niiden tilastollisen merkitsevyyden raportointi on riittämätöntä.  Esimerkiksi, tukisiko tämä yhden prosenttiyksikön ero uskottavasti ajatusta siitä, että uskonnollisuudella on merkittävä rooli edistämässä onnellisuutta yhteiskunnassa? Voidaanko esimerkiksi väittää, että väestön onnellisuus oleellisesti vähenee, jos uskonnollisuus vähenee?

Tuuli lehteilee auki olevan kirjan sivuja.

Mistä merkitsevyystestaus ja p-arvo ovat tulleet?

Vaikka nykyään nollahypoteesitestaus on monille sitä soveltaville tutkijoille itsestään selvä menetelmä, on sen syntyhistoria kaikkea muuta kuin suoraviivainen. Sir Ronald Fisherille ja kaksikko Jerzy Neymanille ja Egon Sharpe Pearsonille kehkeytyi 1930-luvulla henkilökohtaiseksi ja poliittiseksi äitynyt 30 vuoden kiista oikeasta tieteellisestä ja tilastollisesta päättelystä. Myöhemmin Fisherin ja Neymanin–Pearsonin näkemykset sekoittuivat yhtenäiseksi menetelmätavaksi kiistoista huolimatta.

Hypoteesitestauksen alkuperä ja sen keksijät ovat systemaattisesti jääneet mainitsematta oppikirjoissa osittain tai kokonaan, joka osaltaan on aiheuttanut nykytilanteen, jossa p-arvoa käytetään ja tulkitaan väärin. Kaikki kolme ”oppi-isää” painottivat kuitenkin tutkijan tulkinnan ja asiantuntevan arviointikyvyn tärkeyttä tulosten analysoinnissa ja kritisoivat mekaanista hypoteesitestausta. Tutkijan ei pitäisi heidänkään mukaansa nojautua vain yhden testin tai p-arvon varaan, vaan tilastollisesti merkitsevä tulos pitäisi korkeintaan tulkita ”kutsuna” tekemään jatkotutkimusta. Kukaan heistä tuskin allekirjoittaisi nykyisiin p-arvoihin liittyviä rituaalinomaisia käytäntöjä.

Henkilö tekemässä tilastointia läppärillä. Vieressä pöydällä on papereita, joissa on matemaattisia harjoituksia.

Tämä ei ole kvantitatiivisen sosiologian loppu

Nollahypoteesitestauksen ja p-arvojen laskemisen rituaali yhteiskuntatieteissä on säilynyt tutkijasukupolvien ajan monestakin syystä. Se on etenkin nykyisillä tilasto-ohjelmilla helppo laskea, siihen on totuttu, ja monet tieteelliset journaalit ovat myös vaatineet p-arvojen raportoimista (joskin vastakkaisiakin linjauksia on alkanut esiintyä). Nollahypoteesitestauksen käytännöt houkuttelevat myös sen näennäisen varmuuden ja tieteellisyyden lupauksella. Politologi ja tilastotieteen professori Andrew Gelman on verrannut nollahypoteesitestausta tilastolliseen alkemiaan, joka yksinkertaistaa sosiaalisen maailman epävarmuuden maagisesti kahteen vaihtoehtoehtoon supistuneeksi totuudeksi: merkitseväksi ja ei-merkitseväksi.

Emme voi kuitenkaan nojautua yhden luvun tai nyrkkisääntöön varaan ja olettaa, että se kertoo meille ”totuuden”. Tieteenfilosofisesti ja tutkimuskäytännöllisesti tämä tarkoittaa, että määrällisen sosiaalitutkimuksen käytäntömme on muututtava. Vaikka kriitikkojen keskuudessa ei ole syntynyt vahvaa konsensusta vaihtoehtoisista käytännöistä, yhdestä asiasta ollaan yhtä mieltä: meidän on hyväksyttävä jonkinasteinen epävarmuus sekä tunnistettava tutkijan asiantuntevan arvostelukyvyn rooli tutkimusprosessissa.

Emme voi kuitenkaan nojautua yhden luvun tai nyrkkisääntöön varaan ja olettaa, että se kertoo meille ”totuuden”.

Miten tästä voisi jatkaa eteenpäin? Yhtenä koulukuntana ovat he, jotka peräänkuuluttavat parempaa p-arvon tulkinnan opettamista. Toiset kriitikot ovat ehdottaneet p-arvojen korvaamista muilla mittareilla. Kokonaisvaltaisemmat uudistusehdotukset keskittyvät vaatimukseen arvioida tutkimuksellisen näytteen vahvuutta monipuolisemmin ylikorostetun tilastollisen merkitsevyyden sijaan. Tällöin tutkimustulosten sosiologinen merkittävyys, teoreettiset lähtökohdat ja selitysmallit, aiemmat tulokset sekä aineiston laatuun ja tutkimusasetelmaan liittyvä kriittinen pohdinta yhdistettäisiin vahvemmin erilaisten tilastollisten tulosten tulkintaan ja arviointiin.

Tällä hetkellä yhä enemmän kannatusta saava vaihtoehto nollahypoteesitestaukselle on Bayes-tilastotiede. Kysymyksessä on tilastotieteellinen viitekehys, jossa helpommin tulkittavien todennäköisyyksien avulla arvioidaan suoraan tutkittavan hypoteesin paikkaansa pitävyyttä ja siihen liittyvää epävarmuutta, ottaen huomioon havaittu aineisto sekä mahdollisuuksien mukaan myös aiempi tutkimustieto. Bayes-tilastotieteessä voidaan esimerkiksi vastata suoraan kysymykseen siitä, millä todennäköisyydellä ateistien ja uskovaisten onnellisuuden välillä on eroa (ja miten suuri ero todennäköisesti on). Viime vuosina tämä lähestymistapa on kasvattanut suosiotaan myös sosiologiassa ja sen työkalut ovat tulleet käyttäjäystävällisemmäksi. Vaikka Bayes-lähestymistapaankin liittyy omat haasteensa, toivoisimme näkevämme sen soveltamisen lisääntyvän sosiaalitieteellisessä tutkimuksessa. Samalla soisimme hypoteesitestauksen opettamisen parantuvan jo sosiaalitieteiden tilastotieteen peruskursseilla.

 

***

 

Kuvat: artikkelikuva ThisIsEngineering/Pexels, muut kuvat järjestyksessä Lum3n/Pexels, Andrea Piacquadio/Pexels, Victor/Pexels ja Christina Morillo/Pexels.

Kirjoittajat

Laura Salonen

Laura Salonen

Laura Salonen (VTT) työskentelee Työterveyslaitoksella erikoistutkijana ja vierailevana tutkijana INVEST-tutkimuskeskuksessa Turun yliopistolla. Hänen tutkimusalueitaan ovat terveyteen ja hyvinvointiin liittyvä eriarvoisuus erityisesti työelämässä.

Irene Prix

Irene Prix

Irene Prix (VTT) on sosiologian yliopistonlehtori Turun yliopistolla, jossa hän opettaa muun muassa kvantitatiivisia tutkimusmenetelmiä. Tutkimuksessaan hän on kiinnostunut sukupuolen ja sosiaalisen eriarvoisuuden risteävistä sosiologisista kysymyksistä.

Satu Helske

Satu Helske

Satu Helske (FT) on tilastotieteen tohtori ja työskentelee sosiologian erikoistutkijana INVEST-tutkimuskeskuksessa Turun yliopistolla. Hänen tutkimuksensa liittyy mm. sosiaaliseen ja ylisukupolviseen eriarvoisuuteen, isien vanhempainvapaiden käytön syihin ja seurauksiin sekä pitkittäisaineistoihin liittyviin tilastollisiin menetelmiin.

Lue seuraavaksi

Kirjallisuus

Bernardi, Fabrizio, Lela Chakhaia, ja Liliya Leopold. 2017. ”‘Sing Me a Song with Social Significance’: The (Mis)Use of Statistical Significance Testing in European Sociological Research”. European Sociological Review 33 (1): 1–15.

Cohen, Jacob. 1994. ”The earth is round (p<. 05).” American psychologist 49 (12): 997.

Gelman, A. 2016. The problems with p-values are not just with p-values. The American Statistician, 70(10): 1-2.

Gigerenzer, Gerd. 2018. ”Statistical rituals: The replication delusion and how we got there”. Advances in Methods and Practices in Psychological Science 1 (2): 198–218.

Goldfarb, B., & King, A. A. (2016). Scientific apophenia in strategic management research: Significance tests & mistaken inference. Strategic Management Journal37(1), 167-176.

Lakens D. The Practical Alternative to the p Value Is the Correctly Used p Value. Perspect Psychol Sci. 2021;16(3):639-648. doi:10.1177/1745691620958012

Lynch, Scott M, ja Bryce Bartlett. 2019. ”Bayesian statistics in sociology: Past, present, and future”. Annual Review of Sociology 45: 47–68.

Wasserstein, Ronald L, Allen L Schirm, ja Nicole A Lazar. 2019. ”Moving to a world beyond “p< 0.05””. The American Statistician 73 (sup1): 1–19.

 

Avainsanat: sosiologia sosiologia valokeilassa tiede tieto

, ja – 19.5.2022