Mikä datatiede?

Tiedon määrä organisaatioissa on kiistämättä valtava, ja uuden tiedon hankinta ei ole koskaan ollut näin helppoa. Datatieteen avulla tietomassoista – suurista tai pienistä – voidaan löytää riippuvuuksia ja säännönmukaisuuksia. Sen avulla voidaan luoda selittäviä ja ennustavia malleja – toisin sanoen ymmärrystä menneestä, nykytilasta ja tulevaisuudesta.  Tuloksia hyödynnetään tietoon perustuvan päätöksenteon työkaluna, prosessien optimoinnissa sekä toimintojen automatisoinnissa.

Datatiede on erittäin skaalautuva apuväline. Sovellukset vaihtelevat pienestä tilastollisesta analyysistä aina massiivisiin keinoälyä ja konenäköä hyödyntäviin autonomisia päätöksiä tekeviin robotteihin asti.

Datatieteilijän (“data scientist”) tehtävänä on saada datasta tolkkua. Organisaatioiden tietovarantojen kasvaessa ja monimutkaistuessa ja muutosten nopeutuessa haasteet muun muassa niin sanotun ison datan (“big data”) käsittelyssä korostuvat. Tarvitaan sekä tehokkaita menetelmiä analytiikkaan että skaalautuvia ja hajautettuja ratkaisuja aineistojen hallintaan.
https://www.cs.helsinki.fi/uutiset/80882

Data-analytiikka vai Business Intelligence?

Business Intelligencellä tarkoitetaan tietojärjestelmiä, jotka keräävät tietoa ja tuottavat automaattisia, standardoituja raportteja. Sen toiminta perustuu ennalta määriteltyihin sääntöihin, hälyttimiin ja ajastuksiin. Data-analytiikan sovelluksilla sen sijaan pystytään löytämään uusia syy-seuraus-suhteita ja vastaamaan muihin kuin ennalta määriteltyihin kysymyksiin. Voidaankin yksinkertaistaa ja yleistää, että data-analytiikkasovellus etsii säännöt automaattisesti sen sijaan että käyttäjän pitäisi määritellä ne etukäteen.

Datatieteen työkalupakki

lt-mat-tt

Tieteenalana datatiede yhdistää liiketoimintaa, tietotekniikkaa, tietojenkäsittelytiedettä sekä matematiikkaa ja tilastotiedettä.

Datatiede hyödyntää useita menetelmiä ja tekniikoita kuten:

  • Signaalinkäsittely
  • Koneoppiminen
  • Tiedon louhinta
  • Hahmontunnistus
  • Visualisointi
  • Ennakoiva analytiikka
  • Tilastolliset menetelmät
  • Todennäköisyyslaskenta
  • Ohjelmointi
  • Tietokannat
  • Datan varastointi
  • Datan kompressointi
  • Tekoäly

Big Data

Big datalla viitataan massiivisiin tietomääriin, joita tänä päivänä tallennetaan ja käsitellään. Sitä voidaan kuvata viidellä V:llä:

  • Volume eli datan määrä on valtava
  • Velocity eli dataa syntyy lisää nopeasti
  • Variety eli datan rakenne on vaihtelevaa
  • Veracity eli datan epävarmuus
  • Value eli datan arvo

Big data sisältää tunnusomaisesti erilaisista lokitiedoista ja automaattisista rekisteröinneistä syntyvää dataa. Myös esimerkiksi luonnollista tekstiä sisältävä data, kuten sosiaalisen median sisältö, voidaan ymmärtää osaksi Big dataa. Tällaisen datan määrä ja syntynopeus on niin valtavaa, että perinteiset tietotekniikan metodit eivät kykene tallentamaan ja käsittelemään sitä.

Perinteisesti tietokantojen data on hyvin strukturoitua ja helposti käsiteltävissä, esimerkiksi myyntitietoa tai lokitietoja. Big data kuitenkin sisältää myös paljon strukturoimatonta tai puoliksi strukturoitua dataa, kuten kuvia, videoita, ääntä ja tekstiä. Myös nousussa oleva IoT eli esineiden internet tuottaa dataa eri laitteiden kommunikoidessa keskenään sensoreidensa tuottamaa dataa.

Big dataan liittyy usein myös epävarmuus datan laadun suhteen. Data voi olla puutteellista, ristiriitaista, siihen voi liittyä viiveettä tai sen käsittely voi tuottaa likiarvoja tai arviointeja.

Suurillakaan datamäärillä ei kuitenkaan ole sinällään arvoa, ennen kuin ne muutetaan analyysin avulla ymmärrykseksi. Ja kuten alussa todettiin, datatieteen avulla data voidaan muuttaa lisäarvoa tuottavaksi tiedoksi.

 

Lähteet:

T. Davenport, Analysoi ja voita: Kilpailun uusi tiede, 2007
E. Siegel, Predictive analytics, 2016
L. Pierson, Data science for dummies, 2015
B. Marr, Big Data for Small Businesses for Dummies, 2016
Wikipedia: Data science, https://en.wikipedia.org/wiki/Data_science