Google Big Query ja ison datan uusi elämäMuistatteko big datan? Pari vuotta sitten big data oli kaiken bisneksen voimasana. Suuri pelastaja, josta kaikki puhuivat, mutta tarkoittivat keskenään eri asioita. Termi, jota toimitusjohtajat droppailivat juhlapuheissa osoittaakseen olevansa tukevasti ajan hermolla, ja yleisö taputti kiihkeästi. Kaikki mullistuu. Tätä on tulevaisuus.

Minäkin muistan, vaikka haluaisin jo unohtaa. Muistan yrittäneeni vakuutaa big data –myrskyn silmässä hämmentyneitä asiakkaita siitä, ettei datan määrä ole oikeasti itseisarvo. Ettei merkityksetön ja virheellinen data muutu suureksi viisaudeksi, vaikka sitä kuinka yhdistelisi toisiin merkityksettömiin ja virheellisiin datoihin. Mitäpä, jos ensin laitettaisiin ne pienet ja keskisuuret datat kuntoon ja opeteltaisiin hyödyntämään niitä päätöksenteossa.

Suurin big data -hype alkaa onneksi olla ohi, eikä pelkkä taikasana enää riitä vakuuttamaan kuulijoita puhujan ylivoimaisesta älykkyydestä. Nyt halutaan konkretiaa, esimerkkejä ja työkaluja, joiden avulla tiedolla johtamisen alkuun pääsee ilman serverihallia, tiedustelupalvelua ja valtiollisen tason budjettia. Yksi tällaisista työkaluista on Google Cloud Platformin päällä pyörivä Big Query, jonka käyttöä kävin opiskelemassa pari viikkoa sitten Lontoossa.

Google Cloud Platform ja Big Query

Google Cloud Platform on joukko palveluja, joissa asiakas vuokraa Googlen infraa. Cloud Platformin sovelluksia käyttäessään asiakas hyödyntää Googlen myllyjä omiin tarkoituksiinsa, ja maksaa Googlelle siitä kaistaleveydestä, joka kulloinkin on tarpeen palvelun laadun ylläpitämiseksi. Ainakin mainospuheissa rahaa säästyy, kun palvelut pysyvät pystyssä kovassakin tuulessa, eikä omaa infraa tarvitse rakentaa satunnaisten kysyntäpiikkien ehdoilla.

Big Query on yksi Cloud Platformin päällä pyörivistä palveluista. Ajatus on yksinkertainen: Big Query on datapankki, johon voidaan tuoda dataa, muokata ja taulukoida sitä, ja yhdistää muihin datoihin kohtuullisen nopeasti tavallisia SQL-komentoja käyttäen. Virheellistä ja merkityksetöntä dataa ei tämäkään mylly saa muutettua hyödylliseksi, mutta kun perusteet on hyvin rakennettu, suurten datamäärien käsittelyyn Big Query on oivallinen ratkaisu.

Tällä kohtaa lienee syytä myös paljastaa, mitä Big Query ei ole. Se ei ole raportointityökalu. Mikäli mielit visualisoida uutta dataasi hienoiksi käppyröiksi ja pylväiksi, tarvitset sitä varten toisen ohjelman. Onneksi monet raportointityökalut ymmärtävät suoraan Big Queryn tuottamaa dataa ja osaavat tarvittaessa hakea datapäivitykset automaattisesti Big Querystä APIn kautta.

Mihin Big Queryä voi hyödyntää?

Pelkkä kone ei tietenkään muuta maailmaa. Seuraavaksi on keksittävä, mihin Big Queryä käytetään. Itse olen jakanut häpsvärkin hyödyntämismahdollisuudet analytiikkadatan näkökulmasta kolmeen osaan: muokkaukseen, yhdistämiseen ja jatkoanalyysiin. Toki Big Queryä voi hyödyntää muunkinlaisen datan kuin web-analytiikan pyörittämiseen, mutta tässä listassa fokus on kirjoittajan henkilökohtaisista rajoitteista johtuen analytiikkapainotteinen.

1. Datan muokkaus
Menikö tiedonkeruussa joku pieleen? Haluatko sittenkin erottaa datassa samaan muuttujaan tallennetut sanat erillisiksi riveiksi dataan? Vai tarvitsetko dataasi uusia mittareita tai muuttujia, jotka määritellään vanhoja muuttujia ehtoina käyttäen – kuten hittien määrä kävijää kohden tai useasta eri muuttujasta yhdisteltävä kävijäryhmätieto? Kaikki tämä on mahdollista Big Queryllä.

2. Datojen yhdistäminen
Eri lähteistä tulevien datojen yhdistäminen on todennäköisesti tällä hetkellä yksi Big Queryn käytetyimmistä toiminnoista. Isokin CRM-datapankki yhdistyy nopeasti Google Analytics -dataan, kunhan vain yhdistävä muuttuja – esimerkiksi rekisteröityneen kävijän ID-numero – löytyy molemmista datoista. Tuloksena voidaan esimerkiksi analysoida sitä, miten verkkokäyttäytyminen vaikuttaa ostoksiin offline-puolella. Myös sivustotutkimuksen tulosten yhdistäminen Google Analyticsiin onnistuu Big Queryn avulla huomattavasti vanhan maailman excel-virityksiä näppärämmin.

3. Jatkoanalyysi
Google Analyticsin raportointiominaisuudet ovat monipuoliset, mutta käyttäjäkohtaisen raakadatan ulos saaminen jatkoanalyysiä varten on ollut tähän saakka tapauksesta riippuen joko hankalaa tai mahdotonta. Yksi Big Queryn keskeisistä hyödyistä on se, että sen avulla analyytikolla on mahdollisuus ottaa käyttöönsä dataa suoraan Google Analyticsin raakadatapankista, ja sitä voi hyödyntää erilaisten tilastollisten analyysien tekemiseen. Esimerkiksi verkkokäyttäjien segmentoinnissa faktorianalyysistä on hyötyä, ja joskus voi olla tarpeen laskea eri metriikoiden välisiä riippuvuussuhteita vaikkapa sen selvittämiseksi, mitkä verkkosivuston käyttöön liittyvät mittarit oikeasti vaikuttavat ostosten suuruteen tai uudelleenostohalukkuuteen.

GAP-käyttäjille ilmaista Big Query -kaistaa

Lopuksi vielä loistouutinen Google Analytics Premium -työkalun käyttäjille: GAP-asiakkaat saavat Googlelta käyttöönsä nyt tuttujen premiumherkkujen lisäksi myös 500 dollarin arvosta kuukaudessa Big Query -palveluja. Siinäpä yksi hyvä syy lisää ryhtyä Premium-asiakkaaksi.