Ukraina ja eesti rahvalaulude võrdlev teemaanalüüs tehisintellektipõhise tõlke ja arvutuslike meetodite abil

Uurimuse eesmärk oli tuvastada ukraina ja eesti rahvalaulude temaatilist kattuvust, kultuurilisi sarnasusi ja ainuomaseid teemasid arvutuslike meetodite abil, kasutades eelkõige tehisintellektipõhist tõlget ja LDA-teemamodelleerimist.

Kuigi ukraina ja eesti rahvalaulud esindavad erinevaid keele- ja kultuuritraditsioone (läänemeresoome ja idaslaavi), on mõlemat kultuuri ühendanud ajaloolised kontaktiperioodid, mis võivad kajastuda ka rahvapärimuses. Juba varakeskajal ühendasid mõlemat piirkonda põhja–lõunasuunalised kaubateed, eelkõige Läänemere ja Musta mere vaheline varjaagide tee (Pritsak 1981). Need kaubateed soodustasid lisaks kaubavahetusele ka narratiivsete motiivide, rituaalsete struktuuride ja mütoloogiliste kujutelmade levikut. Vaatamata keelelisele kaugusele ilmneb nii ukraina kui ka eesti folklooris märkimisväärseid temaatilisi paralleele, mis teeb need traditsioonid võrdleva analüüsi jaoks eriti sobivaks.

Uurimus keskendus kolmele põhiküsimusele: (1) Milliseid teemasid, motiive ja narratiivseid struktuure saab ukraina ja eesti rahvalauludest teemamodelleerimise abil tuvastada? (2) Kuidas sobituvad arvutuslikult tuvastatud temaatilised struktuurid traditsiooniliste folkloristlike klassifikatsioonidega? (3) Kuidas mõjutab tõlke kasutamine kahe keele temaatilise kattuvuse analüüsi?

TÖÖVOO SAMMUD

Märksõnad: Kogumine, Korraldamine

Juhtumiuuringu esimene samm oli kahe korpuse koostamine, millel põhineb kogu edasine analüüs: 2762 Podoolia (ukr Podillja) piirkonna ukraina rahvalaulu, mis on kogutud aastatel 1918–2013 (Dei 1965; Dmytrenko & Jefremova 2014; Myshanych 1976), ning Eesti Kirjandusmuuseumi hallatav eesti regilaulude andmebaas (ERAB) (Sarv & Oras 2020), kusjuures keskenduti Järvamaa lauludele, kuna selle piirkonna murded on kirjakeelele kõige sarnasemad. Eesti andmestik sisaldas aastatel 1833–1908 üles kirjutatud käsikirjaliste arhiividokumentide digitaaltekste.

Eesmärk oli tagada, et mõlemad korpused oleksid mahult, struktuurilt ja esinduslikkuselt võrreldavad, et arvutuslikud meetodid suudaksid tuvastada nii ühiseid kui ka kultuurispetsiifilisi teemasid. Selleks eemaldati ukraina korpusest refräänid ja tervet värsirida hõlmavad kordused, kuna need võisid sõnasagedusi kunstlikult suurendada ja temaatilist klasterdamist moonutada. Eesti ainestiku puhul andis esialgne SQL-päring FILTER-andmebaasist tulemuseks 6553 Järvamaa laulu. Korpuste mahu ühtlustamiseks vähendati Järvamaa andmestikku 2852 lauluni, jättes alles peamiselt tüüpilised regilaulutekstid (kuna andmebaas sisaldab ka žanripiiridele jäävaid ning muudesse žanritesse kuuluvaid tekste).

Märksõnad: Tõlkimine, Rikastamine, Tõlgendamine

Tõlkeetapp lõi võimaluse võrrelda ukraina ja eesti rahvalaule ühises keelelises raamistikus, mis on usaldusväärse teemamodelleerimise ja klasterdamise eeldus. Tuli valida sobiv tõlkemudel ja töötada välja tõhus tõlketöövoog. Katsetati mitut tehisintellektimudelit ning valiti Claude 3.5 Sonnet, kuna see mõistis kõige paremini piirkondlikke murdeid, folkloristlikku sõnavara ja laulude poeetilisi struktuure.
Koostati eraldi tõlkeskript koos iteratiivselt täiustatud juhise ehk viibaga (prompt), mis sisaldas iga laulu pealkirja, žanrimääratlust ja murdekirjeldust. Oluline põhimõte oli säilitada algtekstide kultuurilised nüansid, nii et ühtlasi oleks tagatud ka tõlgete sõnasõnaline täpsus ja sõnavaraline järjekindlus, mida arvutusanalüüs eeldab. Tõlkeprotsessi tulemusena valmis 5614 lauluga andmestik (ukraina + eesti), kus iga tekst on esitatud nii algkeeles kui ka ingliskeelses tõlkes. Tõlkeetapp oli tihedalt seotud järgmiste etappidega: tõlgitud tekstid olid aluseks eeltöötlusele, vektoriseerimisele ja kogu uurimuse keskmes olevale keelteülesele temaatilisele võrdlusele

Märksõnad: Eeltöötlus, Loomuliku keele töötlemine, Lemmatiseerimine

Pärast tõlkimist tuli tekstid arvutusanalüüsiks ette valmistada. See samm hõlmas ingliskeelsete laulutekstide normaliseerimist: väiketäheliseks ühtlustamist, kirjavahemärkide eemaldamist, lemmatiseerimist ja stoppsõnade eemaldamist. Lemmatiseerimine taandas sõnade grammatilised vormid (nt sing, sings, singing) ühele algvormile, et mudel saaks neid käsitleda ühe mõistena. Stoppsõnade ehk funktsioonisõnade (nt and, the, but) eemaldamine võimaldas keskenduda temaatilise analüüsi seisukohalt kõige olulisematele sõnaklassidele — nimi-, tegu-, omadus- ja määrsõnadele —, mis kannavad semantilist sisu, millele teemamodelleerimine mustrite tuvastamisel tugineb. Eeltöötlusvalikud mõjutasid otseselt nii teemamodelleerimise kui ka klasterdamise tulemuste kvaliteeti ja tõlgendatavust.

Märksõnad: Koostamine, Süntaksianalüüs, Transkodeerimine

Pärast eeltöötlust ühendati ukraina ja eesti korpused üheks andmestikuks. Eesmärk oli võimaldada võrdlevat analüüsi: algoritmid pidid mõlemat korpust analüüsima samas tunnusruumis, nii et sarnasused ja erinevused ilmneksid ühises arvutuslikus raamistikus. Selguse huvides märgendati iga laul kultuurilise päritolu järgi, et hilisemates visualiseeringutes ja statistilistes analüüsides saaks ukraina ja eesti ainestikku eristada.

Ühendatud andmestiku koostamine eeldas tekstide, metaandmete ja märgenduse hoolikat struktureerimist. See integreeritud andmestik oli kõigi järgnevate etappide – tunnuste eraldamise, modelleerimise ja tõlgendamise – alus. Ilma ühtse struktuuri ja selgete märgenditeta poleks olnud võimalik teemasid keelteüleselt võrrelda ega hinnata, kuidas kultuuritraditsioonid kujundavad lauludes leiduvat sümboolikat ja narratiivseid mustreid.

Märksõnad: Ekstraheerimine, Andmekaeve

Enne kui andmemudelid saavad lauludes mustreid tuvastada, tuleb tekstid teisendada formaati, mis võimaldab neid süstemaatiliselt võrrelda. Inimesed suudavad tekstide sarnasusi ära tunda lihtsalt neid lugedes ja võrreldes, kuid algoritmid vajavad sisu numbrilist esitusviisi. Seega on tunnuste ekstraheerimine ja vektoriseerimine oluline sild kvalitatiivse materjali ja kvantitatiivse analüüsi vahel.


Selles töövoos kasutatakse TF-IDF vektoriseerimist, et teisendada iga laul numbriliseks vektoriks. See laialt kasutatav meetod võtab arvesse iga sõna iseloomulikkust antud tekstis, arvestades nii selle esinemissagedust laulus (termini esinemissagedus = TF) kui ka jaotust kogu korpuses (dokumendi esinemissageduse pöördväärtus = IDF). Minimaalse dokumendi esinemissageduse 5% seadmisega keskendub analüüs terminitele, mis esinevad piisavalt sageli, et peegeldada kultuurilisi teemasid.


Saadud TF-IDF maatriks teenib mitut eesmärki: see annab sisendi LDA teemamudelitele, toetab hierarhilisi klastrite moodustamise meetodeid, nagu Wardi algoritm, ja toimib t-SNE poolt kasutatava kõrgedimensioonilise sisendandmena. t-SNE ise teostab projektsiooni madaldimensioonilisse ruumi, kuid vajab selleks TF-IDF omadusi lähtepunktina. See dimensioonide vähendamise protsess loob kahemõõtmelise kaardi, mis aitab visualiseerida klastreid, leksikaalset sarnasust ja tekstidevahelisi seoseid. See tunnuste ekstraheerimise etapp toimib seega sillana toorete poeetiliste tekstide ja järgneva kvantitatiivse temaatilise analüüsi vahel. Kuigi TF-IDF + t-SNE töövoog toodab korpuse ruumilise esitusviisi, mis põhineb ühisel sõnavaral ja leksikaalsetel mustritel, jääb see keskendunuks laulude omavahelisele lähedusele. Teemamudelite loomine toimib aga abstraktsemal tasandil, tuvastades kogu korpuse kujundavad varjatud teemad.

Märksõnad: Teemade modelleerimine, Andmete vastendus, Klasteranalüüs

Järgmises etapis rakendati masinõppemeetodeid andmestiku varjatud temaatiliste struktuuride tuvastamiseks. Esmalt kasutati latentset Dirichlet’ jaotust (LDA) 35 teema tuvastamiseks, millest igaüht iseloomustab sageli koos esinevate ja sisuliselt seotud sõnade rühm. Iga laul oli tavaliselt seotud mitme teemaga, kuid kahe traditsiooni võrdlemiseks vaadeldi üksnes iga teksti domineerivat teemat. Lisaks tehti täiendav analüüs BERTopic-mudeliga, mis oma detailsema teemajaotusega (95 teemat) pakkus alternatiivset vaatenurka ja avardas tõlgendusvõimalusi.
Teemamudelite kõrval kasutati hierarhilist klasterdamist ja t-SNE-tehnikat laulude leksikaalsete seoste visualiseerimiseks. Wardi hierarhiline klasterdamine rühmitas laule sõnakasutuse sarnasuse alusel, samas kui t-SNE lõi kahemõõtmelise kaardi, mis illustreeris, kuidas laulud moodustavad klastreid või kattuvad. Need meetodid täiendasid teemamodelleerimist: LDA ja BERTopic pakkusid struktureeritud temaatilisi kategooriaid, t-SNE ja hierarhiline klasterdamine aga näitlikustasid laulude paiknemist laiemas leksikaalses ja semantilises ruumis, tuues esile kahe suulise traditsiooni seosed ja erinevused.

Märksõnad: Analüüsimine, Tõlgendamine, Kontekstualiseerimine, Selgitamine, Põhjendamine

Kui temaatilised struktuurid olid tuvastatud, oli vaja tulemusi tõlgendada folkloristlike teadmiste ja kultuurikonteksti valguses. See etapp hõlmas ukraina ja eesti rahvalaulude võrdlemist selliste teemade lõikes nagu näiteks pereelu, kosimine, põllutöö ja rituaalid. Kahe korpuse teemade jaotumise analüüs – millised teemad esinevad ainult ühes, millised aga mõlemas traditsioonis – tõi esile nii suulise pärimuse ühisjooni kui ka kultuurispetsiifilisi narratiivseid mustreid.

See tõlgendamisetapp sidus arvutuslikud tulemused traditsioonilise folkloristikaga. Teemaklastreid hinnati, kõrvutades neid väljakujunenud žanriklassifikatsioonide, etnograafiliste kirjelduste ja suulise pärimuse teooriatega, et arvutuslikud tulemused oleksid nii statistiliselt põhjendatud kui ka kultuuriliselt tähenduslikud. Nii muundas võrdlev analüüs arvulised mustrid sisuliseks teadmiseks selle kohta, kuidas eri kultuurides on laulude kaudu väljendatud identiteeti, suhteid, emotsioone ja sotsiaalseid väärtusi.

Märksõnad: Andmete visualiseerimine, Disain, Diagrammide koostamine, Graafika programmeerimine

Viimane etapp hõlmas tulemuste esitamist visualiseeringutena. Dendrogrammid näitavad laulude hierarhilist klasterdumist, samas kui t-SNE graafikud esitavad TF-IDF-andmete madalamõõtmelise projektsiooni, võimaldades temaatilisi struktuure ja lauludevahelisi seoseid visuaalselt uurida. Kuigi t-SNE ise teemasid otseselt ei tuvasta, peegeldab see tekstide sarnasust sõnakasutuse põhjal, mistõttu graafikul ilmnevad klastrid kattuvad sageli teemamodelleerimise abil tuvastatud rühmadega. Täiendavad visualiseeringud kujutavad teemade osakaalusid, temaatilisi kattuvusi ja kultuuridevahelisi paralleele, aidates esitada keerukaid arvutuslikke tulemusi arusaadavamal kujul.

Uurimusel on kolm peamist akadeemilist väljundit:

a. Konverentsiettekanne

Visuaalsed graafikud ja temaatilised kokkuvõtted lõimiti DHNB 2025 konverentsiettekande slaididesse, võimaldades kuulajatel jälgida töövoogu ja mõista tulemusi konkreetsete näidete abil.

b. Töövoo dokumentatsioon HUMALis

HUMALi jaoks koostati üksikasjalikum samm-sammuline töövoo kirjeldus, mis näitab, kuidas iga metoodiline valik – eeltöötlusest ja vektoriseerimise parameetritest kuni modelleerimiseni – mõjutab lõpptulemusi.

c. Ajakirjaartikkel

Uurimisprotsess ja -tulemused kavatsetakse avaldada eelretsenseeritavas teadusajakirjas. Visualiseeringud toetavad artikli arutluskäiku, illustreerides temaatiliste struktuuride kultuuridevahelist võrdlust.

Kasutatud kirjandus

Dei, Oleksii (red.). 1965. Pisni Yavdokhy Zuikhy: zapysav Hnat Tantsiura [Songs of Yavdokha Zuikha: recorded by Hnat Tantsiura]. Kyiv : Naukova dumka. 810 s.

Dmytrenko, Mykola & Liudmyla Yefremova (red.). 2014. Narodni pisni Khmelnychchyny (z kolektsii zbyrachiv folkloru) [Folk songs of Khmelnytskyi region (from the collections of folklore collectors)]. Kyiv: Naukova dumka. 720 s.

Myshanych, Stepan (red.). 1976. Pisni Podillia: zapysy Nasti Prysiazhniuk v seli Pohrebyshche. 1920-1970 rr. [Songs of Podillia: recordings of Nastia Prysiazhniuk in the village of Pohrebyshche. 1920-1970.] Kyiv: Naukova dumka. 520 p.

Pritsak, Omeljan (1981). The Origin of Rus: Old Scandinavian Sources Other than the Sagas. Cambridge, Massachusetts: Harvard University Press

Sarv, Mari & Janika Oras,. 2020. From tradition to data: The case of Estonian runosong. In: Arv. Nordic Yearbook of Folklore, 76, 105−117.