Innofactorin Blogi

GPT-kielimallin mukaan Suomessa Pohjoismaiden hilpeimmät joululaulut

Kirjoittanut Tapio Linkosalo | 12.12.2023

On taas se aina vuodesta, että lauletaan joululauluja – niin hilpeitä kuin kaihoisiakin.

Kolme vuotta sitten kirjoitin blogin, jossa esittelin leikkimielisen analyysini pohjoismaisten joululaulujen tunnelmasta. Analyysiin arvioin joululauluista kunkin yksittäisen sanan hilpeyden, ja koko laulun tunnelma saatiin sitten laulun sanojen keskiarvona. Yksittäisten sanojen positiivisuus tai negatiivisuus haettiin käyttämällä aineistona joukkoa IMDB-leffa-arvioita ja twiittejä.

Hieman yllättäen tuon analyysin mukaan Pohjoismaista hilpeimmät joululaulut löytyivätkin Suomesta.

Kulunut vuosi on tuonut mukanaan GPT-kielimallit, joiden pitäisi osata aiempia tekoälymalleja paremmin ymmärtää kieltä kokonaisuutena. Niinpä oli luonteva ajatus toistaa tämä joululaulujen analyysi kielimallien avulla.

Analyysin työkaluna käytin Azuren ChatGPT 3.5 -mallia, jolle esitin yksinkertaisen kehotteen: ”Arvioi oheisen joululaulun sanoituksen tunnelma (asteikolla nollasta yhteen)”. Aineistona käytin puolestaan samoja joululauluja kuin edellisessäkin harjoituksessa.


"Yllättäen analyysin mukaan Pohjoismaista hilpeimmät joululaulut löytyivätkin Suomesta."


Tulokset vaihtelivat mallien välillä

Ensimmäiseksi vertasin yksittäisten joululaulujen tunnelmaa eri analyysimenetelmien välillä. Eri menetelmillä saadut arviot laulujen tunnelmasta osoittautuivat hyvin erilaisiksi, sillä korrelaatio vanhan ja uuden mallin tuottamien tulosten välillä oli vain 0,13. Hitusen verran siis mallit arvioivat laulujen tunnelmaa samaan suuntaan, mutta yksittäisen laulun kohdalla tulokset vaihtelivat suuresti. 

Seuraavaksi tarkastelin joululaulujen keskimääräistä hilpeyttä eri pohjoismaiden välillä, eli laskin maakohtaiset keskiarvot laulujen saamista tuloksista. Edellisen tuloksen huomioiden oli hieman yllättävää, että myös ChatGPT-kielimallin mielestä suomalaiset joululaulut olivat hilpeimpiä. Tässä suhteessa kielimallilla laskettu tulos oli siis yhteneväinen kolmen vuoden takaisen analyysini kanssa.

Toisaalta on syytä muistaa, että yleisen käsityksen mukaan suomalaiset joululaulut ovat sieltä synkimmästä päästä:


Kuvassa analyysin tulokset eri malleilla: Vaaleansininen – ChatGPT -kielimalli, Tummansininen – yksittäisten sanojen arvioihin perustuva malli (sanojen arviointiin käytetty Tweet-aineistoa), Oranssi – kuten edellä, mutta IMDB-aineiston perusteella tehty sanojen luokittelu). X-akselilla ryhmitelty eri pohjoismaat. (Huom! Menetelmien erilaisuudesta johtuen palkkien ”korkeuden” vertailu ei ole mielekästä. Oleellista on huomioida eri maiden järjestys kunkin mallin puitteissa.)

Yksittäisissä lauluanalyyseissä yllätyksiä

Lopuksi tarkastelin vielä yksittäisten laulujen saamia tuloksia, jotka osoittautuiva mielenkiintoisiksi.

ChatGPT-kielimallin luokittelun mukaan hilpeiden laulujen kärjestä löytyy odotettuja lauluja, kuten ”Tonttu Torvinen”, ”Tonttujen joulu” ja ”Joulu on taas”. Synkkien laulujen kärkeä pitää puolestaan tontun unettomuudesta kertova laulu.

Joukkoon mahtuu kuitenkin myös yllättäviä tuloksia. Kielimallin analyysi laulusta ”Varpunen jouluaamuna” kuuluu seuraavasti: ”Sanoitusten perusteella on vaikea määrittää kappaleen tarkkaa sävyä. Joulun maininta ja loppua kohden oleva kiitollinen ja iloinen sävy viittaa kuitenkin siihen, että se saattaa olla enemmän iloisen puolen puolella. Arvosanaksi antaisin noin 0,7 asteikolla synkästä iloiseen.

Sylvian joululaulun kielimalli arvioi näin: ”Sanoitusten perusteella on vaikea määrittää kappaleen tunnelmaa. Jotkut rivit viittaavat iloiseen ja juhlavaan tunnelmaan, kun taas toiset vihjaavat melankolisempaan sävyyn. Siksi antaisin tälle joululaululle arvosanaksi 0,5 asteikolla synkästä iloiseen.” No, onhan se sentään puolivälissä asteikolla.

Juice Leskisen jouluklassikosta ”Sika” malli päättelee seuraavaa: ”Synkän ja väkivaltaisen sanoituksen perusteella antaisin tälle joululaululle tuloksen nolla asteikolla synkästä iloiseen.” Kielimalli ei selvästikään ymmärrä savolaista huumoria.


"Kielimalli ei selvästikään ymmärrä savolaista huumoria."


Kielimallit eivät ymmärrä tekstien kokonaismerkitystä – ainakaan vielä

Esimerkkilaulujen analyysit kuvaavat oikeastaan aika hyvin sitä, mistä kielimalleissa perimmiltään on kysymys: ne tarttuvat lopulta pääosin yksittäisiin sanoihin ja enintään lauseisiin mutta eivät siltikään "ymmärrä" sitä tekstien kokonaismerkitystä, jota sanoilla ja lauseilla halutaan välittää.

Toisaalta kielimallien läpilyönti yleiseen käyttöön tapahtui vasta reilu vuosi sitten, joten ne kehittyvät edelleen hurjalla nopeudella. Ensi jouluna niiden tuottamat analyysit voivat olla huomattavasti nykyistä parempia.

Ja kuka tietää – ehkäpä tulevaisuudessa mallit osaavat arvioida myös melodian hilpeyden tahi melankolian osana analyysiään?