Katsaus Big data –käsitteisiin ja -tekniikoihin
Saarinen, Leena (2017-08-15)
Katsaus Big data –käsitteisiin ja -tekniikoihin
Saarinen, Leena
(15.08.2017)
Tätä artikkelia/julkaisua ei ole tallennettu UTUPubiin. Julkaisun tiedoissa voi kuitenkin olla linkki toisaalle tallennettuun artikkeliin / julkaisuun.
Turun yliopisto
Kuvaus
Siirretty Doriasta
Tiivistelmä
Tiedon määrä maailmassa kasvaa nopeasti. Tietoa on periaatteessa aina ollut saatavilla, mutta vasta viime vuosikymmenen aikana digitalisoitumisen myötä se on saatu talteen ja laajassa mitassa käyttöön. Big data on sekä käsitteellinen että tekninen vallankumous. Informaatiosta on tullut laite-/dataohjattua eli tieto prosessoidaan ja analysoidaan automaattisesti.
Big data ei syrjäytä tai korvaa tavallista dataa, mutta sen olemassaolo tulisi huomioida. Kaikilla aloilla joudutaan varautumaan massiivisten tietomäärien käsittelyyn ja analysointiin. Sitä varten tarvitaan uusia täydellisesti kuvattuja ja hyvin organisoituja tietosäiliöitä. Niiden suunnittelussa metadataan ja identifiointijärjestelmään tulee kiinnittää erityistä huomiota.
Analysointimenetelmät ovat vanhoja ja löytyvät eri tieteenaloilta, esim. luokittelu, ryvästys, tiedonlouhinta, assosiaatiosäännöt, koneoppiminen, hahmon tunnistus, visualisointi, tekstianalytiikka. Tekniikat valitaan tapauskohtaisesti, sillä Big data -aineistot ovat kaikki erilaisia.
Valtavien tietomäärien prosessointiin ja säilyttämiseen tarvitaan uudenlaista tekniikkaa. Hadoop on avoimen lähdekoodin alusta, jonka ytimen muodostavat hajautettu tiedostojärjestelmä ja rinnakkaisprosessointia tukeva ohjelmointimalli. Hadoop on erittäin vikasietoinen ja helposti skaalautuva.
Big data ei syrjäytä tai korvaa tavallista dataa, mutta sen olemassaolo tulisi huomioida. Kaikilla aloilla joudutaan varautumaan massiivisten tietomäärien käsittelyyn ja analysointiin. Sitä varten tarvitaan uusia täydellisesti kuvattuja ja hyvin organisoituja tietosäiliöitä. Niiden suunnittelussa metadataan ja identifiointijärjestelmään tulee kiinnittää erityistä huomiota.
Analysointimenetelmät ovat vanhoja ja löytyvät eri tieteenaloilta, esim. luokittelu, ryvästys, tiedonlouhinta, assosiaatiosäännöt, koneoppiminen, hahmon tunnistus, visualisointi, tekstianalytiikka. Tekniikat valitaan tapauskohtaisesti, sillä Big data -aineistot ovat kaikki erilaisia.
Valtavien tietomäärien prosessointiin ja säilyttämiseen tarvitaan uudenlaista tekniikkaa. Hadoop on avoimen lähdekoodin alusta, jonka ytimen muodostavat hajautettu tiedostojärjestelmä ja rinnakkaisprosessointia tukeva ohjelmointimalli. Hadoop on erittäin vikasietoinen ja helposti skaalautuva.