Tietokokonaisuudet

Tämä sivu käsittelee eri toimijoiden avaamia tietokokonaisuuksia, ns. avoimen datan lähteitä, ja niiden sisältämiä hyödyntämismahdollisuuksia. Sivu on osa datatieteen esittelyosion tietopaketteja. Hankkeen myötä syntynyt data-analytiikan selvitys käsittelee avointa dataa kohdassa 2.1 Digitalisaation polku.

Avoimen datan ominaisuuksia, mahdollisuuksia ja toimintatapoja on esitelty esimerkiksi Ajatar-hankkeen avoimen datan osiossa avoinsatakunta.fi -sivustolla.

Sivulla esiteltävät kohteet ovat vain pintaraapaisu alati laajenevasta kokonaisuudesta. Myös sinä voit ehdottaa sivustolla esiteltäviä tietokokonaisuuksia tai kertoa kokemuksia ja suosituksia niiden hyödyntämisestä. Ota yhteyttä (yhteystiedot sivun lopussa).

 

TOIMIJOITA

Väestörekisterikeskus

Väestörekisterikeskus ylläpitää suomalaista avoindata.fi -palvelua. Palvelussa on mukana lähes 800 organisaatiota. Koska osa organisaatioista on automaattisesti luotuja, ei niillä ole välttämättä aineistoa palvelussa ja aineisto löytyy organisaation omilta sivuilta.

Väestörekisterin itsensä osalta tarjolla on 5 tietoaineistoa: Suomen rakennusten osoitetiedot ja äänestysalue, Suomen kunnat, Suomessa saatavilla olevien julkiste palvelujen hakemisto, suomalaisten rakennusten osoitetiedot postinumerolla ja WGS84-koordinaateilla (.csv) sekä suomalaisten etu- ja sukunimien tilastot (.xlsx).

Esimerkiksi etunimitilastossa Janne -nimisiä oli vuoden 2017 tilastossa erilu 30 tuhatta. Suosituin nimi naisilla samassa tilastossa oli Maria lähes 200 tuhannella osumalla. Sukunimitilaston ykkönen oli ”Korhonen”.

Rakennustiedoissa olevia tietueita ovat building_id, region, municipality, street, house_number, postal_code, latitude_wgs84, longitude_wgs84 ja building_use. Avaamalla csv:n exceliin ja jakamalla tekstirivit sarakkeiksi saadaan luotua taulukko, jolla tiedoista voidaan suodattaa haluttu kohde. Koko Suomen kattavassa tiedostossa on yli 3.5 miljoonaa riviä, joten excelin rajoite reilun miljoonan rivin maksimista estää tiedoston hyödyntämisen sellaisenaan. World Geodetic Systen 1984 -koordinaattien käyttö voi vaatia muunnosta eri toimijoiden välillä.

Patentti- ja rekisterihallitus

Patentti- ja rekisterihallituksen (PRH) julkaisema avoin data sisältää API:t Virre-tietopalveluun sekä Yritys- ja yhteisötietojärjestelmään (YJT). Virren maksuttomassa versiossa näkyviä tietoja ovat mm. yrityksen nimi (toiminimi), Y-tunnus, Kaupparekisterinumero, Kotipaikka, yritysmuoto, kieli, rekisterin tila, yrityskiinnitykset ja posti- ja käyntiosoite. YJT:ssä näytetään vastaavasti mm. Y-tunnus, toiminimi, yritysmuoto, kotipaikka, kieli, päätoimiala, posti- ja käyntiosoite, tila erilaisissa rekistereissä (kaupparekisteri, verohallinnon perustiedot, ennakkoperintä, arvonlisäverovelvollisuus, työnantajarekisteri) ja yrityksen mahdollinen verovelka.

Käyttäjä voi testata rajapintojen toimintaa webbisivuna kautta. Aineistosta tehtävien hakujen määrä on nykyisin rajoitettu 300 hakuun minuutissa ja määrä jaetaan käyttäjin kesken. Datalähdettä voisi käyttää esimerkiksi y-tunnuksen kautta tunnistettujen yritysten ominaisuuksien väliseen vertailuun ja datan esittämiseen 3D-visualisoinnin kautta (vertaa R-playgroudin esimerkki 2).

Maistraatti

Maistraatin avoimena datana tarjottavia tilastotietoaineistoja ovat holhousasioiden rekisteri, lahjoitusasioiden rekisteri, avioehtoasioiden rekisteri ja vihkimisoikeusrekisteri. Tilastotiedot ovat saatavilla maistraatti.fi- sivuston Avoin data ja tilastot sivulla. Eri rekistereiden tapahtumien kokonaislukumäärät näkyvät sivun yläosan rekisterikohtaisissa ikonilaatikoissa. Esimerkiksi lahjoitusasioihin liittyvät rekisteröinnit -tilasto sisältää lahjoitusasioiden lukumäärät kuukausittain vuodesta 1992 alkaen. Ladattavassa excelissä on mukana myös vuositason määriä esittävä valmis graafinen kuvaaja.

Posti

Postin julkaisemaa avointa dataa ovat postinumerotiedostot, jotka käyttäjä voi ladata postin sivulta. Niihin kuuluvat postinumerotiedosto (BAF), perusosoitteisto (BCF) ja postinumeroiden muutostiedot edelliseltä kuukaudelta (POM). Postinumerotiedostossa on voimassa olevat yleiset postinumerot ja toimipaikkojen nimet sekä toimipaikkojen nimien lyhenteet suomen- ja ruotsinkielisenä. Lisäksi tiedostossa on postinumeron pääasiallinen kunta- ja maakuntakoodi sekä kunnan kielisuhde. Postinumerorajat eivät noudata kaikissa tilanteissa kuntarajoja ja postinumero voi sijaita yhden tai useamman kunnan alueella. Tiedot päivitetään kerran viikossa ja tuoreutettu aineisto on noudettavissa lauantaisin klo 15:00 jälkeen. (palvelukuvaus)

Tiedostot ovat ZIP-pakattuja DAT-tiedostoja. BAF:in tietueen pituus on 220 merkkiä, BCF:n 256 ja POMin 453 merkkiä (palvelukuvaus). DAT-tiedosto on geneeristä dataa sisältävä tiedosto ja sen voi avata tekstieditorilla. Tiedoston voi avata myös excelillä asettamalla avauksen yhteydessä tietueiden sarakkeiden määrät, koot ja tyypit oikein (sarakkeilla ei ole erotinta).  Tämän jälkeen tietoja voi käsitellä taulukoiden kautta. Perinteistä katua varten on kaksi tietueriviä joista ensimmäinen kertoo kadun parittomien ja toinen parillisten kiinteistöosoitteiden alku- ja loppunumerot.

Liikenteen turvallisuusvirasto

Liikenteen turvallisuusvirastolla (Trafi) on  avoindata.fi -palvelussa tarjolla 5 tietoaineistoa. Trafin omalla sivustolla on viiden edellisen lisäksi myös 6. tietoaineisto (vesikulkuneuvot) sekä tutkimustietoa jarrutustiedoista. Tietoaineistoa suodattamalla voidaan etsiä esimerkiksi erilaisia kohderyhmiä.

Ajokorttien tietoaineisto (.CSV) sisältää myönnetyt ajokortit (yli 7.5 miljoonaa) ajokorttiluokittain, kunnan, sukupuolen ja iän mukaan. Listalla on vain muutama 100 vuotta täyttänyttä ajokortin  haltijaa. Rautateiden kalustorekisterissä on kalustoon liittyviä tietoja. Esimerkiksi höyryvetureita löytyy 16 kpl valmistumisvuosilta 1915-2015. Ilma-alusrekisteristä löytyy vajaan 1500 ilma-aluksen joukosta 50 kpl kuumailmapalloja, joista 21:ssä voi olla enemmän kuin yksi henkilö (miehistön määrän minimivaade on 1). Alusten tietoaineisto sisältää yli 1100 Suomeen rekisterialueelle rekisteröidyn aluksen tiedot. Näistä aluksen satamapaikkana Poria pitää 23 ja Raumaa 39 alusta. Rauman osalta vanhin alus on vuodelta 1903 oleva ”Diamond” ja Porissa vastaavasti vuodelta 1955 oleva ”Johanna”. Ajoneuvojen tietoaineisto on kooltaan suurin (ZIPin koko yli 240 MB, avattuna yli 825 MB) ja listan avaaminen vaatii kyvykkään editorin. Excelissä avatun reilun miljoonan rivin osittaisen listan painavimman ajoneuvon omamassa on 680 tonnia painava jättikokoinen nosturi. Myös listan levein ajoneuvo on 8,2 m leveä nosturi. Aivan virheetöntä ajoneuvojen data ei taida olla, sillä listan suurin iskutilavuus, 6.700.000 cm3, kuuluu keskikokoiselle LIUGONG CLG856II -kauhakuormaajalle 🙂

Liikennevirasto

Liikennevirasto ylläpitää Digitraffic -rajapintapalvelukokonaisuutta. Sen kautta jaetaan ajantasaista liikenne- ja olosuhdetietoa Suomen liikenneväyliltä kattaen kaikki kolme pääliikennemuotoa; tie-, rata- ja vesiliikenteen. Suurin osa tietolajeista saadaan Liikenneviraston ylläpitämistä tiedonkeruujärjestelmistä.

Liikennevirasto ylläpitää myös Digiroad-tietopalvelua, jonka tietojen ylläpito hoidetaan yhteistyösssä ELY-keskusten ja kuntien kanssa. Palveluun on koottu on koottu koko Suomen tie- ja katuverkon keskilinjageometria sekä tärkeimmät ominaisuustiedot.

Liikennevirasto tarjoaa tietoaineistoja myös oman sivuston avoimen datan osiossaan ja avoindata.fi -palvelun kautta. Oman sivuston osalta tarjolla on esimerkiksi linkejä paikkatietohakemiston tarjontaan, liikenne-ennusteisiin sekä joukko- ja reittiliikenteen aikataulutietoihin. Jälkimmäisessä on tarjolla  143 tietoaineistoa.

Julkiset hankinnat ja tarjouspyynnöt

HILMA on työ- ja elinkeinoministeriön ylläpitämä maksuton, sähköinen ilmoituskanava, jossa hankintayksiköt ilmoittavat julkisista hankinnoistaan. Yritykset puolestaan saavat HILMAsta reaaliaikaista tietoa käynnissä olevista hankintamenettelyistä ja ennakkotietoa tulevista hankinnoista. (etusivu). Julkisilla hankinnoilla tarkoitetaan sellaisia tavara-, palvelu- ja rakennusurakkahankintoja, joita valtio, kunnat ja kuntayhtymät, valtion liikelaitokset sekä muut hankintalainsäädännössä määritellyt hankintayksiköt tekevät oman organisaationsa ulkopuolelta. Julkiset hankinnat tulee tehdä hankintalainsäädännössä säädettyjä menettelytapoja noudattaen. Sääntelyn tavoitteena on tehostaa julkisten varojen käyttöä. Tämän vuoksi hankinnat on pääsääntöisesti kilpailutettava avoimesti ja tehokkaasti, ja kilpailuun osallistuvia yrityksiä on kohdeltava tasapuolisesti ja syrjimättömästi. (yleistä)

HILMAn oma käyttöliittymä tarjoaa hankintojen haun vain manuaalisesti, joten automaattisen haun osalta käyttäjän on turvauduttava erilaisiin lisäpalveluihin. Monissa HILMAssa esitettyjen hankintojen lisätiedoissa viitataan Tarjouspalvelu-toimittajaportaaliin. Se on  ilmainen palvelu toimittajille, josta löytyvät hankintayksiköiden julkaisemat julkiset tarjouspyynnöt. Tarjouspalvelussa toimittajat voivat tutustua tarjouspyyntöihin, lähettää kysymyksiä ja lukea vastauksia sekä jättää helposti Tarjouspalvelun opastamana sähköisiä tarjouksia. Samoilla tunnuksilla pääsee kaikkien hankintayksiköiden palveluihin. (tarjouspalvelu).

Kunnat

Myös kunnat ovat ottaneet avoindata.fi -palvelun käyttöön osaksi tietoaineistojensa jakelua. Maakuntien osalta kärjessä on Uusimaa (577 aineistoa) ja siellä eniten aineistoja tarjoavat Helsinki (406) Vantaa (97) ja Espoo(70). Myös Pohjois-Pohjamaalla Oulu tarjoaa 70 aineistoa. Pirkanmaalta Tampere (28) ja Varsinais-Suomen Turku (25) ovat myös aktiivisia toimijoita (tilanne 2/2018). Tietoaineistojen sisältö vaihtelee talousluvuista, kulttuuriin tai liikuntaharrastusten paikkatietoihin.  Satakunnan kunnista vain Pori on mukana listalla ja Porin osalta kyseessä lähinnä on kokeellinen aineisto koskien kaupungin pysäköintialueita.

Pääkaupunkiseudun kunnilla on lisäksi yhteinen HRI-palvelu (Helsinki Region Infoshare), jossa on tarjolla yli 600 tietoaineistoa. Aineistosta (tilanne 2/2018) suurin osa koskee väestöä (180), karttoja ja paikkatietoa (169), työtä ja elinkeinoja (91) sekä asumista (90).

Finland Local Open Data Census toimii kuntien avoimen datan tarjontaa mittaavana työkaluna. Sitä ylläpitää Open Knowledge Finland.

Ilmatieteen laitos

Ilmatieteen laitos tarjoaa suurimman osan tietoaineistoistaan maksutta ja ne ovat digitaalisessa koneluettavassa muodossa. Tarjolla on esimerkiksi useita erilaisia havaintotietoja. Osa havaintotiedoista on reaaliaikaisia ja niistä on tarjolla myös aikasarjoja. Lisäksi tarjolla on ennustemalleja. Tietoaineistojen käyttö edellyttää rekisteröitumistä palveluun.

Ilmatieteen laitoksen tietoaineistot (27 kpl) on tarjolla myös avoindata.fi -palvelun kautta (linkittyy ilmatieteen laitoksen sivulle).

Maanmittauslaitos

Maanmittauslaitoksen (MML) avoimien aineistojen tiedostopalvelusta voit ladata maksutta Maanmittauslaitoksen avoimia kartta- ja ilmakuva-aineistoja. Tarjolla on (24 kpl) erilaisia kartta- ja laserkeilausaineistoja, ilmakuvia ja korkeusmalleja. Halutut tietoaineistot, esimerkiksi kiinteistön rajat, tunnus ja korkeusmalli valitaan kartalta ja valikoista ja ne tilataan sähköpostiosoitteeseen. Sähköpostiin tulee linkkisivu, joka on voimassa 30 päivää.  Tietoaineisto on lisensoitu CC 4.0 lisenssillä.

MML ylläpitää myös paikkatietoikkuna -palvelua. Se on kansallinen paikkatietoportaali, joka esittelee paikkatietoaineistoja ja -palveluja sekä niiden hyödyntämismahdollisuuksia. Käyttäjä voi katsella ja tulostaa (tai tallettaa PDF:nä) erilaisia karttatasoja ja aineistoja yli 1200 karttatason ja 50 organisaation tarjoamasta tietoaineistosta (paikkatietoikkuna).

Maanmittauslaitoksen tietoaineistoja (23 kpl) on tarjolla myös avoindata.fi -palvelun kautta.

Lisätietoja:

  • Janne Harjamäki, projektitutkija
  • PALAUTE (sivustosta tai sen sisällöstä)
  • Avoimen datan käsittelyyn ja hyödyntämiseen liittyviä MOOC-kursseja (sivun kohdassa Datatiede, ”Datan avaaminen” ja ”Avoimen datan hyödyntäminen”)
  • Selvitys data-analytiikan nykytilasta ja sen hyödyntämisestä Satakunnassa (linkki tulossa)