Heliteoste (meta)andmete kättesaadavaks tegemine temaatilis-bibliograafilise kataloogina

Praegu on Eesti heliloomingu andmestik killustunud mitme infosüsteemi vahel: teoste üldandmed on Eesti Muusika Infokeskuse leheküljel, käsikirjade andmed Eesti Muuseumide Veebiväravas, (noodi)trükiste ning heli- ja videosalvestiste bibliograafilised kirjed raamatukogude ühiskataloogis ESTER. Seejuures on andmed eri süsteemides esitatud isesuguse põhimõtte järgi; nii näiteks ei ole sugugi alati järgitud MARC21 vormingut. Eesti Muusika- ja Teatriakadeemia uurimisrühma eesmärk on helilooja Heino Elleri näitel kaardistada võimalused andmete kogumiseks praegustes infosüsteemides, lähtudes muusikaliste allikate kataloogimise uuemast praktikast (RISM). Uurimisprojekti võib vaadelda kui Heino Ellerile pühendatud digitaalse kataloogi nõuete analüüsi ja kavandamise etappi.

Uurimisprojektis kasutatakse peamiselt kolme liiki andmeid/allikaid: 1) Teoste metaandmed praegustes infosüsteemides (allalaetavad projekti käigus loodud skriptidega programmeerimiskeeles Python); 2) Eesti Teatri- ja Muusikamuuseumis (Ajaloomuuseum) asuvad Heino Elleri käskirjad digiteerituna (PDF, TIFF); 3) Peamiselt 1970. ja 1980. aastatest pärit trükised ja masinkirjas allikad, mis projekti käigus digiteeritakse koos märgituvastusega (OCR).

Töövoo Sammud

Märksõnad: Kataloogimine, Sisuanalüüs, Kontekstualiseerimine

Digitaalne temaatilis-bibliograafiline kataloog on üks võimalus, kuidas teha Eesti heliloojate pärand kättesaadavaks uurijatele, esitajatele ja laiemale kultuurihuvilisele üldsusele. Millist teavet peab aga kataloog sisaldama, et eri kasutajagruppidel oleks sellest kasu? Sellele küsimusele vastates on otstarbekas uurida kõigepealt mõningaid juba tuntud muusikalisi veebikatalooge, nagu näiteks Mozarti teoste Köchel-Verzeichnis. Veebikataloogist leiab huviline Mozarti iga teose andmed, alates kõige põhilisemast (valdkond/žanr, loomisaeg, esituskoosseis jne) kuni uurijale kasuliku bibliograafilise teabeni käsikirjade ja noodiväljaannete kohta. Kataloog võimaldab Mozarti muusikat kuulata, niisamuti sirvida kogutud teoste sarjas (Neue Mozart-Ausgabe) ilmunud noodiväljaannet. Rõhuasetus audiovisuaalsele meediale ja interaktiivsusele on veebikataloogide puhul süvenev suundumus, mida tasub silmas pidada ka samalaadsete Eesti heliloojatele pühendatud infosüsteemide kavandamisel.

Märksõnad: Andmete kogumine, Veebikaapimine, Andmete puhastamine, Toimetamine


Edasi tuleb teha kindlaks, milline osa andmetest on infosüsteemides juba saadaval. Nii näiteks on Heino Elleri teoste nimekiri ja käsikirjade andmed leitavad Eesti Muusika Infokeskuse lehel, arhiiviallikate andmed avanevad Eesti Muuseumide Veebiväravas (MuIS) ning Elleri muusika noodiväljaannete ja heliplaatide kirjed raamatukogude ühiskataloogis ESTER. Paljud kultuurilooliselt olulised heli- ja videosalvestised asuvad rahvusringhäälingu (digi)arhiivis (ERR). Kes soovib leida teavet Heino Elleri mingi teose kohta, peab seepärast otsima mitmes üsna isesuguse põhimõtte ja kasutusmugavusega infosüsteemis.
 
Uurijasõbralikud on infosüsteemid, kus andmed on sisestatud rahvusvaheliselt kokkulepitud põhimõtte järgi. Nii näiteks on ESTERi kirjeid võimalik vaadata raamatukogunduses üldlevinud vormingus MARC21 ja hulgi alla laadida. Need andmed on masinloetavad, sest kokkuleppelise koodiga on näidatud iga andmerea tähendus. Mõnikord aga andmete allalaadimise võimalus veebilehel puudub: uurija ise peab siis veebilehel nähtavad andmed salvestama ja puhastama. Üks võimalus on kirjutada programmeerimiskeeles Python selleks tarbeks skriptid, mille abil saab veebilehe HTML-vormingus andmed jaotada juba märksa kergemini töödeldavana Exceli tabeli veergudesse. Kui eri infosüsteemide andmed ei ole kooskõlas, siis uurimuse see etapp toob vead esile.

Märksõnad: Levitamine, Avaldamine, Haldus
 
Enne uue infosüsteemi loomist on otstarbekas kaaluda võimalusi andmete avaldamiseks juba olemasolevates. Teoste käsikirjade metaandmed sisestatakse selles tööetapis suurimasse (praegu rohkem kui 1,5 miljonit kirjet sisaldavasse muusikaliste allikate andmebaasi RISM (Répertoire International des Sources Musicales), kus on tagatud andmete vaba kättesaadavus (open data ehk avaandmed). Kuivõrd RISM võimaldab kirjeldada muusikalisi allikaid detailselt MARC21 järgi ja lisada masinloetavana ka käsikirja algustaktide noodigraafika, siis Eesti infosüsteemides puudub sellele praegu alternatiiv. Samal ajal on oluline kontrollida metaandmete õigsust Eesti infosüsteemides ja vajadusel andmeid täiendada.
 
Käsikirjade metaandmed RISMi sisestada on kasulik andmehalduse pärast: nii võib olla kindel, et rahvusvaheliselt heakskiidetud praktika järgi kogutud andmed on hoitud ja ligipääsetavad. Lisaks väärib märkimist, et keskkonnas RISM Online saavad andmed vabalt kasutatavaks juba õige pea pärast nende sisestamist ja ülevaatamist, s.t veel enne uurimisprojekti järgmisi etappe.

Märksõnad: Märgituvastus, Optiline märgituvastus, Optiline noodituvastus

Temaatilis-bibliograafilise kataloogi tarvis andmete kogumine hõlmab ka allikate digiteerimist ja masinloetavaks teisendamist. Kuigi arvestatav osa Eesti muuseumides ja arhiivides olevatest säilikutest on juba kättesaadavad kultuuripärandi digitegevuskavast ajendatuna, vajavad paljud olulised muusikalised allikad jätkuvalt digiteerimist. Selleks, et digiteerimisel saadud materjal (näiteks TIFF vormingus pildifail või PDF) oleks ka masinloetav, tuleb seda edasi töödelda märgituvastuse (või muusikatuvastuse) tarkvaraga.

Sellal kui märgituvastuse ehk OCRi kiire areng on teinud sellest digitaalsetes arhiivides suuresti tavapraktika, seisab muusikatuvastus ehk OMR veel arenguhüppe ootel, eriti käsikirjaliste nootide tuvastusvõime osas. Muusikatuvastuse eesmärk on teisendada pildifaili kujul noodid muusikalise notatsiooni vormingusse (MusicXML), et noodimaterjali saaks redigeerida notatsioonitarkvaraga (näiteks MuseScore). Muusikatuvastus seega mitte üksnes ei lihtsustaks noodigraafika loomist seni vaid käsikirjalistele või vananenud noodiväljaannetega teostele, vaid avaks ka uued rikkalikud võimalused muusika andmepõhiseks analüüsiks.

See tööetapp eeldab uurimisrühma koostööd kultuuri- ja mäluasutustega, eeskätt Eesti Rahvusraamatukoguga ning muusikalisi käsikirju hoiustava ja digiteeriva Eesti Teatri- ja Muusikamuuseumiga (Ajaloomuuseum). Uurimisprojekti tulemusena saadud teadmine võimaldab muusikakultuuri vaatenurgast täiustada praegusi Eesti infosüsteeme (eriti MuISi) ja täiendada andmekogusid.

Märksõnad: Levitamine, Avaldamine, Arhiveerimine, Säilitamine
 
Eelkirjeldatud tööetapid loovad eelduse selleks, et sõnastada Eesti muusikapärandit koondava infosüsteemi nõuded. Eesmärk on teha muusikaline teave kättesaadavaks „ühes kohas, ühe otsinguga”, kui laenata E-Varamu motot. Mõneti sarnaselt E-Varamuga annaks loodav kataloog keskse ligipääsu teistes infosüsteemides sisalduvatele andmetele (käsikirjade metaandmed RISMis, PDF-failid MuISis jne), ent pakuks allikate mugava sirvimiskeskkonna ning märgi- ja muusikatuvastuse näol valdkonnaspetsiifilisi võimalusi, mis Eesti infosüsteemides seni puuduvad.
 
Andmete hankimiseks teistest infosüsteemidest on võimalik kasutada rakendusliidest ehk APId (application programming interface), mis lubab rakendustel omavahel suhelda ehk teha päringuid ja päringutele vastata. Nii näiteks toetab RISM rakendusliidest, millega saab kõigi nende andmebaasis sisalduvate allikate kohta teavet küsida.