Niin on, jos siltä näyttää? – Big data, datajournalismi ja kausaliteetin ongelma

Tietovarantojen määrä lisääntyy kiihtyvää tahtia. Tämä avaa uusia mahdollisuuksia tiedon hyödyntämiseen. Uusien isojen datamassojen synnyttämä Big Data -hype on ollut käynnissä jo jonkin aikaa. Tosiuskovaisten mielestä big datan käyttömahdollisuudet ovat lähes rajattomat. Samaan aikaan big datan kanssa on yleistynyt datajournalismi. Datajournalismiin kuuluu monia osa-alueita yksinkertaisista infografiikoista lähtien, mutta läheisimmin big dataan linkittyy ”tietokantajournalismi” (database journalism), jossa uutisia tehdään laajoja tietoaineistoja analysoimalla ja visualisoimalla. Big dataan ja datajournalismiin liittyy kuitenkin riskejä, joista olisi hyvä keskustella. Lisääntyvä tietomäärä mahdollistaa nimittäin myös paljon virheellisiä johtopäätöksiä. Pelkän datan avulla saadaan selville ainoastaan korrelaatioita ilman tietoa todellisista syy-seuraus -suhteista. Tarvitseeko big datan ja datajournalismin aikakautena selvittää syy-seuraus -suhteita, vai riittääkö vahva korrelaatio todisteeksi? Onko niin, jos siltä näyttää?

Big data – kuka kaipaa kausaalisuutta, kun on vahvoja korrelaatioita?

Joidenkin mielestä meidän tulisi big datan aikakaudella luopua tavoitteesta selvittää kausaalisuhteita ja tyytyä vahvoihin korrelaatioihin, joita laajat tietoaineistot mahdollistavat. Silloin riittäisi se, että tiedetään mikä toimii ilman että tarvitsisi selvittää sitä, miksi se toimii. Datalouhinnan avulla on mahdollista etsiä laajoista tietovarannoista korrelaatioita datalähtöisesti. Tämä tarkoittaa sitä, että annetaan datan kysyä kysymykset ja etsiä niihin vastaukset. Ongelmaksi tässä muodostuu kuitenkin se, että tiedon määrän kasvaessa kasvaa myös virheellisten korrelaatioiden määrä. Tämä tarkoittaa sitä, että vaikka jäätelön kulutuksella voidaan ennustaa hukkumiskuolemia, ei jäätelöä verottamalla saada hukkumiskuolemia vähennettyä.

Datan määrää voidaan kasvattaa joko lisäämällä muuttujia tai havaintoja. Havaintomääriä kasvattamalla voidaan päästä tarkempiin tuloksiin ja olenkin aikaisemmin kirjoittanut siitä, kuinka esim. mikrosimulointi hyötyy aikaisempaa suuremmista taustadatoista. Muuttujien lisääminen puolestaan mahdollistaa uusien korrelaatioiden löytämisen, mutta samalla lisääntyy myös harhaisten korrelaatioiden määrä. Dataa kasvattamalla lisätään kohinaa ja sieltä signaalin löytäminen tulee entistä vaikeammaksi (Nate Silveriä mukaillen). Big datan synnyttämistä harhaisista korrelaatioista muuttujamäärän kasvattamisen suhteen on varoitellut myös mm. Nassim Taleb (Beware the Big Errors of ‘Big Data’).

Viimeisen kuukauden aikana vastaani on tullut melko paljon kriittisiä tekstejä big datan mahdollisuuksien suhteen. Gil Press kokoaa tuoretta kritiikkiä yhteen kolumnissaan Big Data News Roundup: Correlation vs. Causation. Kritiikki on koskenut sitä, että pelkät korrelaatiot eivät riitä, olivat ne kuinka vahvoja tahansa. Big data avaa mahdollisuuksia, mutta se vaatii edelleen tuekseen ihmisen, joka osaa tulkita datan antamia tuloksia ja erottaa merkitykselliset korrelaatiot kohinan seasta. Tai kuten David Brooks kirjoittaa  “One limit is that correlations are actually not all that clear. A zillion things can correlate with each other, depending on how you structure the data and what you compare. To discern meaningful correlations from meaningless ones, you often have to rely on some causal hypothesis about what is leading to what. You wind up back in the land of human theorizing.”

Datajournalismi kaipaa tuekseen tutkivaa journalismia

Datajournalismin kirjo on varsin laaja. Kun katsoo esimerkiksi Helsingin Sanomien datajournalistisia sisältöjä, niin sieltä löytyy mm. infograafi alkoholin kulutuksen muutoksista, tyylitesti, selvitys eduskunnan valiokuntien asiatuntijakuulemisista ja HS:n rakkaustesti. Rakkaustestien yhteyttä dataan ja journalismiin voisi toki kummastella, mutta keskityn nyt käsittelemään datajournalismia, jossa uutisten lähteenä toimivat tietokannat ja niiden avulla tehtävät selvitykset.

Datajournalismia on toki ollut olemassa jo pitkän aikaa ennen kuin sitä alettiin kutsua datajournalismiksi. Esimerkiksi MTV3 on tehnyt ylioppilastutkintojen perusteella lukiovertailuita jo vuodesta 2002 lähtien. Alusta lähtien lukioiden paremmuusjärjestyksen perusteista on käyty kiistelyä. Otetaanko vertailuun mukaan kaikki aineet, vai pelkästään pakolliset? Pitääkö oppilaiden lähtötasoerot ottaa huomioon? Paljon riippuu siitä, mikä on kysymys, johon halutaan vastata. On huomattavasti helpompaa vastata kysymykseen, missä lukiossa saadaan parhaat tulokset ylioppilaskirjoituksissa, kuin kysymykseen mikä lukio on paras opettamaan. Jälkimmäisessä kysymyksessä pitää ottaa huomioon erot oppilaiden lähtötasoissa. Tämän suhteen tapahtui edistymistä viime vuonna, kun STT teki lukiovertailun, jossa huomioitiin myös oppilaiden lähtötaso. Lukiovertailujen tekeminen on yksi osa-alue, jossa taloustieteen empiirisistä työkaluista on hyötyä ja taloustieteen avulla onkin todennäköisesti mahdollista avata kysymystä siitä, mikä lukio on todellisuudessa paras.

Muutamat viimeaikaiset datajournalistiset uutiset Helsingin Sanomissa ovat herättäneet minussa hieman kummastusta. Esimerkiksi Hitas-asuntojen asukkaiden tulotietoja vertaillessa (Hyvätuloiset himoitsevat hitas-asuntoja) verrattiin muutamien valittujen Hitas-asukkaiden tuloja keskimääräisen helsinkiläisen tuloihin. Tässä ei huomioitu tuloeroja asumismuotojen välillä, asuntojen iän välillä tai asuinalueiden välillä. Siten selvityksen avulla ei voi tietää, että onko Hitas-asuntojen asukkaiden tuloissa jotain normaalista poikkeavaa. HS selvitti myös pysäköinnin hintaa Helsingissä ja päätyi otsikossaan johtopäätökseen ”Helsingin lähiöissä pysäköi keskustaa kalliimmin”. Itse uutisesta tosin selviää hintaeron johtuvan siitä, että lähiöissä pysäköidään taloyhtiöiden omille parkkipaikoille ja keskustassa kadunvarsiparkkiin. Oliko otsikkoon valittu harhaanjohtava johtopäätös vain provokatiivisista syistä?

Kolmas mieltäni vaivaamaan jäänyt HS-selvitys oli tuore uutiskokonaisuus siitä, keitä asiantuntijoita eduskunnan valiokunnat kuuntelevat. Selvityksen ensimmäisessä osassa kerrottiin, että ”elinkeinoelämän lobbareita kutsutaan eduskunnan kuultavaksi kaksi kertaa enemmän kuin palkansaajien”. Tämä tieto löytyi eduskunnan asiantuntijakuulemistilastoja tutkimalla ja luokittelemalla asiantuntijat eri etujärjestöihin. Mutta selvitys ei auta vastaamaan kysymykseen siitä, miksi elinkeinoelämän edustajia kuullaan enemmän. Onko syynä se, että eduskunta on kallellaan elinkeinoelämän suuntaan? Vai onko syynä se, että tuona aikana on käsitelty lakialoitteita, jotka koskevat elinkeinoelämää, mutta joihin palkansaajajärjestöillä ei ole kosketuspintaa? On useita mahdollisia selityksiä sille, miksi elinkeinoelämän edustajia kuultaisiin muita enemmän, mutta HS:n selvityksessä ei edes yritetä selvittää syitä datan taustalla. Uutisessa herätetään kysymys, johon ei edes yritetä vastata. Syiden selvittämisessä voitaisiin käyttää apuna tutkivaa journalismia. Esimerkiksi jokin yksittäinen esimerkki lakipaketista, jossa on kuunneltu vain elinkeinoelämän edustajia, voisi avata syitä lukujen taustalla.

Tutkija journalismi voi vastata niihin kysymyksiin, joita datajournalismi herättää. Siinä missä datajournalismi selvittää ”mitä tapahtuu”, tutkiva journalismi voi selvittää ”miksi tapahtuu”. Tutkivaa journalismia hyödyntämällä päästäisiin etenemään korrelaatioista kausaalisuhteisiin.

Data on hyvä renki, mutta huono isäntä

Tiedon lisääntyminen avaa mahdollisuuksia, mutta niihin mahdollisuuksiin on syytä suhtautua realistisesti. Data ei osaa kertoa meille oikeita kysymyksiä, eikä kertoa itsenäisesti oikeita vastauksia. Kaiken datan taustalla on myös ihmisiä, jonka vuoksi dataan sisältyy inhimillisiä erheitä. Uudet tietovarannot ovat hyviä apuvälineitä tutkimuksessa ja päätöksenteossa, mutta ihmisten pitää silti keksiä ne oikeat kysymykset, joihin etsitään tietovarantojen avulla vastauksia. Ihmisten pitää myös osata tulkita tulokset ja erottaa merkityksettömät korrelaatiot todellisista kausaalisuhteista.

Datajournalismi avaa uusia mahdollisuuksia journalismin saralla. Tiedon visualisoimisessa on menty huimasti eteenpäin ja monet datajournalistiset sisällöt ovat todella näyttäviä. Itse toivoisin että seuraava askel datajournalismin saralla olisi tutkivan journalismin kehittäminen. Tämä tarkoittaisi sitä, että pyrittäisiin pääsemään lukujen taakse joko ”perinteisin” tutkivan journalismin keinoin tai hyödyntämällä tilastotieteen/taloustieteen mahdollisuuksia erottaa kausaalisuhteet korrelaatioiden joukosta. Ja ennen kaikkea toivoisin rehellisyyttä sen suhteen, mitä käytössä olevan datan avulla voidaan todella päätellä. Muuten on vaarassa, että todelliset uutiset hukkuvat datakohinaan. – Niin ei aina ole, vaikka siltä näyttäisi.

Mainokset

2 thoughts on “Niin on, jos siltä näyttää? – Big data, datajournalismi ja kausaliteetin ongelma

  1. Mua mietityttää tässä tekstissä pari kysymystä: 1. mihin kysymyksiin ajattelet noiden juttujen vastaavan, ja 2. mitä kysymyksiä sinun mielestäsi noissa jutuissa pitäisi esittää?

    Esim. mitä Hitakseen tulee, eikö se sun mielestä ole riittävä uutinen kertoa, mikä siellä asuvien tulotaso on, etenkin kun tuota tietoa (tai arvioita siitä) ei ole ollut aiemmin saatavilla? Ja mikä on se kysymys, johon vastaamiseksi olisi hyvä kontrolloida asumismuodot, asuntojen ikä ja asuinalueet?

    Mä en ihan hahmota sitä, miksi sanot, että pysäköintijutun otsikkoon oli valittu harhaanjohtava johtopäätös. Tarkoitatko että se väittämä on väärä, vai mitä?

    Mitä lobbausesimerkkiin tulee, niin sehän on aina harkinnanvaraista, että miten tarkkaan uutista taustoitetaan ja miten tarkkaan hommaan pureudutaan. Oon samaa mieltä, että tuossa nimenomaisessa esimerkissä oltais voitu mennä vähän pidemmälle taustoittamisessa ja syiden pohtimisessa. Toivottavasti siihen mennäänkin, HS:n toimituksessa ja muuallakin.

    Noin yleisesti olet ihan oikeassa varovaisuuden sanojesi kanssa. Musta big datan myötä suomalaiseen journalismiin ei ole tullut aiempaa enempää huonoa datajournalismia, mutta se ei tietenkään tee varovaisuuden sanoista turhia.

  2. Kiitos kysymyksistä, Allan. Nuo mainitsemani uutiset ovat esimerkkejä, jotka ovat herättäneet kysymyksen ”miten itse tämän tekisin”.

    1. Hitas

    Asukkaiden tulotason selvittäminen voi olla uutinen ihan sellaisenaan, mutta itse jäin pohtimaan valittua vertailukohtaa. Siinä vertailtiin tiettyjen Hitas-asujien tuloja keskimääräisen helsinkiläisen tuloihin. Mutta onko se yllättävää, että Jätkäsaaressa uudessa omistusosunnossa asuva tienaa enemmän kuin vuokra-asuja Kontulassa? Minusta kiinnostava kysymys olisi ollut, että mihin kohtaan tulojakaumassa Hitas-asujat kuuluvat, kun otetaan huomioon mm. asumismuoto ja asuinpaikka. Tienaavatko Hitas-asujat enemmän vai vähemmän kuin Jätkäsaaren asukkaat keskimäärin? Sijoittuvatko Hitas-asujien tulot vuokra-asujien ja vapaan markkinan omistusasujien väliin? Nämä olisivat mielestäni mielenkiintoisia kysymyksiä, mutta toki ymmärrän että datarajoitteet tulevat tässä aika pian vastaan.

    2. Parkkipaikat

    Itseäni jutussa häiritsi se, että siinä verrataan ”appelsiineja” ja ”omenoita”. Otsikon väittämä ei ole väärin, mutta mielestäni kaikki parkkipaikat eivät ole (hyötyarvoltaan) samanarvoisia, joten niiden hintojen yksinkertainen vertailu ei kerro koko kuvaa. Itse jutussa sitten tosin selviääkin mistä tuo hintaero johtuu.

    —-
    En itsekään sanoisi, että datajournalismi olisi lisännyt huonon journalismin määrää. Ehkä tässä tekstissä tavoitteenani oli ”varoittelun” lisäksi toivomus siitä, että tulevaisuudessa datajournalismi kehittyisi deskriptiivisista selvityksistä syvällisempiin analyyseihin. Toki ymmärrän journalistien aikarajoitteet, yhteen uutiseen ei ole mahdollista käyttää niin paljoa aikaa kuin tutkijoilla on käyttää yhteen tutkimukseen. Ja kausaalisuhteiden löytäminen on tutkijoillekin vaikeaa jopa ilman aikarajoitteita. Mutta toiveita voi aina esittää, vaikka ne eivät olisikaan aina realistisia.

Vastaa

Täytä tietosi alle tai klikkaa kuvaketta kirjautuaksesi sisään:

WordPress.com-logo

Olet kommentoimassa WordPress.com -tilin nimissä. Log Out / Muuta )

Twitter-kuva

Olet kommentoimassa Twitter -tilin nimissä. Log Out / Muuta )

Facebook-kuva

Olet kommentoimassa Facebook -tilin nimissä. Log Out / Muuta )

Google+ photo

Olet kommentoimassa Google+ -tilin nimissä. Log Out / Muuta )

Muodostetaan yhteyttä palveluun %s