Posted on

Data-analytiikkaa ja tarvelähtöistä koulutusta

Koulutusaiheisen blogiemme sarja saa jatkoa uuden vieraskynän myötä. Tällä kertaa sarjaamme kartuttaa sijoitustoimintaan perehtynyt Mika Suominen.

 

Yksityisenä sijoittajana haluan tietää, miten yritysten kyky tehdä tulosta kehittyy. Ennusteita varten teen usein aikasarja-analyyseja ja simulointeja. Erityisesti kiinnitän huomiota toimialojen dynamiikkaan, kasvunopeuksiin ja jakaumien häntiin. Salkun oikealla hajautuksella pyrin sen jälkeen varmistamaan, että olen mukana pelissä huomennakin. Omat tarpeeni eivät tässä suhteessa eroa yritysten tarpeista. Jokaisen yrityksen tulee huolehtia kassavirrastaan. Siihen tarvitaan myös data-analytiikkaa.

Datapeltoja kanssani kyntää nykyään RStudio, tilastollisen laskennan ohjelmisto, digiajan työhevonen. Sen sydän on R-ohjelmointikieli, jonka kyvykkyyttä voi helposti laajentaa valmiilla lisäpaketeilla. Tarjolla on kaikkea tunnuslukujen laskennasta neuroverkkoihin ja kvanttimekaniikasta talouden sovelluksiin. Paketit ovat ilmaisia, kuten itse ohjelmistokin. Suurin investointi on tehtävä omaan osaamiseen. Pitää tuntea tarvittavat laskentamenetelmät, löytää oikeat paketit ja osata käyttää niitä.

Tätä tekstiä kirjoittaessani CRAN-verkkopalvelussa (The Comprehensive R Archive Network) on ladattavissa 12 725 pakettia ja lukumäärä kasvaa koko ajan. Se tarkoittaa, että matemaattisia menetelmiä ja erilaisia sovellusalueita on niin paljon, että kaikkiin mahdollisiin yhdistelmiin ei löydy valmista kurssikokonaisuutta. Ei perinteisenä kurssina eikä verkkokurssina. Näin on tilanne ainakin omalla kohdallani. Kun siis perusasiat on ensin opeteltu, omaa osaamistaan on pakko kasvattaa pieninä paloina useista eri lähteistä.

Tarve hankkia jokin uusi ”osaamispala” lähtee yleensä jostakin konkreettisesta ongelmasta. Esiin nousee kysymys, johon vastaamiseen matemaattiset taitoni eivät riitä. Kun näin käy – eli aika usein – turvaudun aluksi netin hakukoneeseen. Sillä löydän potentiaalisen ratkaisumenetelmän ja menetelmästä yleistajuisen artikkelin. Syventävää oppia haen tarvittaessa matematiikan ja tilastotieteiden verkkokursseista ja opetusvideoista. Molemmat ovat tärkeitä data-analyytikon osaamisalueita.

Matematiikan verkkokurssit ovat kuitenkin aika laajoja. Käytännössä pyrin poimimaan vain rusinat pullasta. Teoreettinen puoli saa jäädä matemaatikoille ja mekaanisen laskennan hoitaa aikanaan RStudio. Minulle riittää, että ymmärrän menetelmän keskeiset periaatteet ja osaan tulkita tuloksia. Niillä tiedolla löydän CRAN-hakemistosta myös laskentaan tarvittavat R-paketit. Pakettien mukana saan käyttöohjeet ja hyvällä onnella käyttäjäyhteisöstä löytyy niiden tueksi vielä jokin laajempi esimerkki. – Sitten koodataan.

RStudiossa luon uuden skriptin, jossa dataa, kuten toimialan yritysten tilinpäätöstietoja, rikastetaan vaihe vaiheelta. Joskus datasta tulee projektin pullonkaula ja lähestymistapaa on pakko muuttaa. Ohjelmointiin liittyvät ongelmat sen sijaan on helpompi ratkaista. Varsinkin yleiskäyttöisiin R-paketteihin, kuten datan esikäsittelyyn ja tulosten visualisointiin, on olemassa hyviä kursseja. Verkkokurssien löytämistä helpottaa se, että netissä toimii useita R-ohjelmointiin erikoistuneita koulutussivustoja ja yhteisöjä.

Oma suosikkini R-kurssien tarjoajista on DataCamp (http://datacamp.com). Hinnoittelu perustuu palvelussa kuukausimaksuun, jolla saa pääsyn koko tarjontaan. Yksittäinen kurssi koostuu lyhyistä luennoista ja ohjelmointitehtävistä, jotka suoritetaan aidossa R-ympäristössä. Erityisesti olen pitänyt siitä, miten R-käyttöliittymä on integroitu selainpohjaiseen oppimisalustaan. Koulutustarjonta on myös jaoteltu riittävän pieniin osiin. Toisin sanoen, sen sijaan, että pitäisi suorittaa jokin laaja kokonaisuus alusta loppuun, ja varata siihen useampi päivä, voi vajaassa tunnissa opetella juuri sen asian, mitä oma työ sillä hetkellä edellyttää.

Datan analysointi ja siihen liittyvä koulutus ovat muuttuneet paljon oman työurani aikana. Tiedonhaku on helpottunut ja verkon koulutustarjonta kasvanut. Sitäkään ei pidä unohtaa, että yhä suuremman osan analysointiin tarvittavasta työstä tekee nykyään kone ja valmiit algoritmit. Kaikki tämä on vaikuttanut siihen, että suosin yhä enemmän opiskelua pienissä paloissa ja oikeaan tarpeeseen. Samalla kurssimuotoinen opiskelu on jäänyt vähemmälle. Ketteryys on päivän sana oppimisessakin.

Valitettavasti pelkkiä osaamispaloja popsimalla ei markkinoilla menesty. Jos lähestyy tuntematonta aina vain käytännön ongelmien kautta, riskit realisoituvat ennen kuin oma ymmärrys asioiden välisistä yhteyksistä ehtii muodostua. Myös mahdollisuuksia jää tunnistamatta, jos kokonaiskuvaa ei ole. Perinteiselle koulutukselle ja kursseille on siis yhä tilausta. Laajemmilta kursseilta en kuitenkaan etsi vakioratkaisuja ja kädentaitoja, vaan kokemuspohjaista tietoa siitä, minkälaisia työkaluja on olemassa ja mihin tarkoitukseen ne soveltuvat. – Nopeasti muuttuvassa ja monimutkaisessa ympäristössä oikea strategia ei ole vakiointi vaan monimuotoisuus.

Lopuksi vielä vinkki satakuntalaisille yrityksille: TTY:n Porin yksiköllä on käynnissä VEKOLI-hanke, jonka tavoite on laajentaa avoimien, vapaasti saatavilla olevien verkkokoulutusmateriaalien käyttöönottoa ja hyödyntämistä. Hankkeen puolelta on jo lähestytty useita paikallisia yrityksiä, mutta jos aihe kiinnostaa, niin vielä ei ole myöhäistä ottaa yhteyttä.

Lisätietoja:


Mika Suominen (twitter, linkedin)on yksityinen sijoittaja, joka on aiemmin toiminut laatupäällikkönä, liiketoiminnan kehityspäällikkönä ja ohjelmistoarkkitehtina.

Author: Janne Harjamäki

Projektitutkijana data-analytiikan osaamiskeskittymää perustavassa hankkeessa (TTY Pori, 2016-2018).


Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *