<img height="1" width="1" style="display:none" src="https://www.facebook.com/tr?id=1525762147722832&amp;ev=PageView&amp;noscript=1">
Tapio Linkosalo

Mustikan kypsymisen ennustaminen ja aikaisen kevään ongelma

Kuluva kevät 2020 on jo toinen peräkkäinen, jona kevät tulee eteläiseen Suomeen poikkeuksellisen aikaisin. Siitä syystä mustikan kukinnan ennuste on myöhästynyt. Tässä blogissa kerron mallin parametrien estimoinnista ja siitä, millaisia ongelmia poikkeukselliset sääolosuhteet voivat mallille aiheuttaa.

Mustikan kypsymistä ennustetaan mallilla, joka on julkaistu www.mustikkaan.fi -sivustolla. Malli kehitettiin alun perin Innofactorin Hackathon-tilaisuudessa keväällä 2018. Tänä keväänä sivustolle on tehty päivitys, jonka ansiosta sivustoa on entistä selkeämpi käyttää.

Mustikan kukinnan ja marjojen kypsymisen ennuste perustuu lämpösumman laskentaan: alkaen tietystä päivästä keväällä summataan päivittäisiä keskilämpötiloja paikkakunnittain ja kun tuo lämpösumma ylittää ennalta arvioidun kynnysarvon, ennustaa mallin kukinnan alkavaksi tai marjat kypsyviksi. Laskenta tehdään paikallisten säähavaintojen mukaan ja siten eri paikkakunnille saadaan eri arviot vuosirytmi-ilmiöiden ajoittumiselle.

Mallittamisen tekee haastavaksi se, että kumpikin parametriarvoista on laskennallinen abstraktio, jonka oikeaa lukuarvoa ei voi suoraan mustikan biologiasta mitata. Päin vastoin, mallia kehitettäessä niiden arvot haetaan kokeilemalla erilaisia arvoja, kunnes löytyy yhdistelmä, joka minimoi mallin ennustevirheen, toisin sanoen tuottaa ennusteen, joka mahdollisimman tarkasti toistaa mallin opetusaineistossa havaitut kukinnat ja marjankypsymiset. Ongelmana tässä on se, että tässä tapauksessa (ja näin on numeerisessa mallittamisessa valitettavasti usein tilanne) nuo kaksi parametria ovat korreloituneet. Yksinkertaistaen voisi sanoa, että voidaan valita aikainen aloituspäivä ja korkea kynnysarvo, taikka sitten myöhäinen aloituspäivä ja matala kynnysarvo ja molemmissa tapauksissa malli ennustaa opetusaineiston suunnilleen yhtä hyvin (Kuva 1). Tästä seuraa se, että mallin parametrien arvojen yksikäsitteinen määrittäminen on epävarmaa.

FI-mustikkaan-mallinnus

Kuva 1 havainnollistaa mallin parametrien riippuvuutta toisistaan. Kuvan pystysuoralla akselilla on mallin ennustevirhe niin, että mitä korkeammalla taso on, sen pienempi on mallin ennustevirhe. Vaakasuorilla akseleilla on mallin aloituspäivä (päivien lukumäärä uudenvuoden päivästä, asteikolla 80–130), ja mallin lämpösumman kynnysarvo kukinnalle (asteikolla 100–240). Optimipisteen ympäristössä malli on ”laakea”, ja optimipisteen (pinnan huippu) ympärillä on viisto “harjanne” – kun molempien parametrien arvoja muutetaan sopivasti suhteessa toisiinsa, pysyy mallin sovitus lähes yhtä hyvänä. Tällaisella aineistolla malli on herkkä poikkeuksellisille havaintopisteille – opetusaineistossa ei tarvitsisi olla montaakaan aikaista kevättä mukana, ja mallin optimi siirtyisi harjannetta pitkin vasemmalle. Ja siinä tapauksessa olisivat näiden parin viimeisimmän kevään ennusteet luultavimmin olleet osuvampia!

Miten tämä sitten liittyy varhaisiin keväisiin? Mallissa käytetty lämpösumman aloituspäivä on ensimmäinen toukokuuta. Useimpina vuosina tämä päivämäärä toimii hyvin, huhtikuussa on tavallisesti niin kylmää, ettei lämpösummaa mainittavasti kertyisi, vaikka aloituspäivä olisikin jo huhtikuun puolella. Niinpä malli ennustaa opetusaineiston tapahtumat hyvin vaikka aloituspäivä on vasta vappupäivä. Koska tuossa opetusaineistossa (vuosilta 1963–2006) ei varhaisia kevääntuloja juuri esiinny, ei mallia opetettaessa ole ollut syytä aikaistaa aloituspäivää toukokuusta. Tyypillisesti tällainen mallin automaattinen opettaminen on myös konservatiivista, malli pyrkii pikemminkin aliarvioimaan vuosien välistä vaihtelua kuin liioittelemaan sitä. Suurin osa vuosista on keskimääräisiä, joten tämä lähestyminen toimii yleensä hyvin.

Kuitenkin vuosina 2019 ja 2020 on ollut jo huhtikuussa hyvin lämmintä, ja mustikoiden silmujen kehittyminen on alkanut jo varhemmin keväällä. Molempina vuosina eteläisessä Suomessa on saatu ensimmäiset havainnot mustikan kukinnasta jo toukokuun alkupäivinä, missä vaiheessa malli vielä ennustaa kukintaa vasta usean viikon päähän. Toisaalta nyt toukokuun lähestyessä loppuaan on mallikin päässyt vauhtiin, eikä ennustettu kukinta ole enää monenkaan päivän päässä. On siis hyvin mahdollista, että vaikka kukinnan ennuste jäi ainakin etelässä jälkeen toteutuneesta, niin mallin pääasia, marjojen kypsymisen ennuste, osuu paremmin kohdalleen. Ainakin vuonna 2019 sattui kesäkuun alkuun viileä jakso, jonka aikana malli kiri hyvin todellisuutta kiinni, ja sitten marjojen kypsymisen ennusteet sattuivat ihan mukavasti kohdalleen. Nähtäväksi jää, miten käy tätä vuonna. Kannattaa siis käydä kurkkaamassa miltä omien mustikka-apajien tilanne näyttää sivustoltamme  https://mustikkaan.fi .

Tutustu kehittyneen analytiikan ja BI:n ratkaisuihimme!

 



Tapio Linkosalo

Tapio työskentelee Innofactorilla Data Scientist -roolissa.