Esemeuurija tööfotodes peituvate andmete kasutusvõimalused

Käesoleva projektiga uuritakse, kuidas on võimalik esemeuurija töö käigus kogunevaid tööfotosid rakendada esemete automaatseks määramiseks ja nende seisukorra hindamiseks ning kuidas sellist suuremahulist kogu kasutajasõbralikult ja FAIR printsiipe jälgides avaldada. Materiaalse kultuuri uurijad võivad iga uuritava teema raames teha tuhandeid fotosid esemetest, aga enamasti piirdub fotode kasutus tüpoloogilise määramise, leidude visuaalse kõrvutamise ja paremini vormistatud fotode puhul tööde illustreerimisega. Projekti lõpus jääb valdav osa tehtud fotosid aga gigabaitide kaupa uurija kõvaketastele paremat aega ootama.

Projektis kasutatakse 2012.–2024. aastani tehtud fotosid arheoloogilistest klaasileidudest, mis pildistati magistri- ja doktoritöö andmekorje käigus leidude kataloogimiseks. Fotod on varieeruva kvaliteediga ning pildistatud mitme eri seadmega. Projekti eesmärk on Eesti mäluasutustes säilitavate arheoloogiliste klaasileidude varasemalt suures osas avaldamata toorandmete (ca 15 000 fotot) kogum puhastada ja avaldada ning kindlaks teha, kas fotodel kujutatust on tehisintellekti abil võimalik täiendavaid andmeid koguda näiteks esemeliigi automaatseks määramiseks või eseme lagunemise tuvastamiseks.

Töövoo sammud

Märksõnad: Annoteerimine, Kataloogimine, Võrdlemine, Eeltöötlus

Selle etapi eesmärk on võimalike uurimissuundade ja meetodite kogumine ning haldamine ja väljundite planeerimine. Kuna arheoloogiliste esemete fotosid on kasutatud erinevates raalnägemise uuringuprojektides, on selle uuringufaasi eesmärgiks otsida eeskujusid, näiteid ning juba rakendatud parimaid praktikaid, aga tuvastada ka võimalikke probleeme ja kitsaskohti. Seda võiks kirjeldada lihtsalt kui allikate kogumist, aga kuna projektiperiood on piiratud, aitab see töövoo samm aega võimalikult produktiivselt ära kasutada ning luua kõige optimaalsemat uurimisplaani.

Meetodina kasutame võrdlustabeleid publikatsioonides kasutatud mudelite, programmeerimiskeelte, andmete hulga, tulemuste, aga ka väljundite kõrvutamiseks. Viimasega paralleelselt koondame võimalikud väljundid ja avaldamiseks sobivaimad väljaanded tabeldatud kujul, kusjuures lisatud on näiteks artiklite puhul maksimaalsed pikkused, viitamissüsteem ja publitseerimise kiirus ning andmete puhul lisaks andmete maksimaalne suurus ja nõutud litsents. See võimaldab uurimisplaanis andmete avaldamises osas juba töö algusest sihipäraselt eesmärkide suunas töötada ning projekti andmestikku koondada ja vormistada selliselt, et andmete avaldamine võtab vähem aega.

Märksõnad: Andmete puhastamine, Kärpimine, Toimetamine, Nimede kasutamise reeglid, Eeltöötlus

Selle etapi eesmärk on varem kogutud andmed uue uurimistöö jaoks sobivasse vormi viia ning ülejäänud andmetest eraldada, et neid saaks analüüsida. Selleks on esmalt vaja tuvastada, millises seisus uuritav andmekogu on (antud juhul leiufotod) ning leppida kokku süsteemis, mida uuringus kasutatavate andmete korrastamisel tuleb läbivalt jälgida. Antud juhul nõuab see dubleeritud fotode eemaldamist, mitmetasandilisest kaustade süsteemist ühekaustalisse süsteemi liigutamist, üksikleidude fotodelt välja lõikamist koos mõõtkavaga (Adobe Photoshop) ja fotode ümbernimetamist. Katsetatakse nii käsitsi kui automatiseeritud lähenemist, et võrrelda nende täpsust, efektiivsust ja ajakulu. Samuti toimub selles faasis jooksvalt andmete varundamine välisele kõvakettale ning pilve (Tallinna Ülikooli Google Drive), mis aitab kaitsta andmed hävimise eest.

Igal fotol on vaja kontrollida või täpsustada EXIF data ehk failiga seotud metadata sisu. Selles etapis on planeeritud kasutada OpenRefine’i, mis on vabavaraline andmete puhastamise tööriist. Samuti kasutatakse andmehulga haldamiseks Microsoft Excelit, mis võimaldab andmeid ka filtreerida ja visualiseerida ning .CSV kujul ka vajadusel teistes programmides analüüsida. Kasutame andmete kirjeldamisel Kultuuripärandi andmelehti (versioon 2), et lihtsustada nende taaskasutamist ja et tagada töövoo läbipaistvust. See töövoo samm võimaldab uuritavat andmestikku paremini mõista ja mõtestada ning on aluseks raalnägemise rakendamisel, (toor)andmete analüüsimisel ja avaldamisel.

Märksõnad: Masinõpe, Visuaalne analüüs

Selle etapi eesmärk on eelkõige puhastatud toorandmete ehk leiufotode kasutamine tehisintellektimudeli raalnägemise võimekuse treenimisel. Testitakse taolise mudeli võimekust tuvastada samaliigilisi esemeid kasutades selleks juba olemasolevaid ning varieeruva kvaliteediga fotosid, rakendades varem kasutamata suuremahulist andmestikku. Käesoleval hetkel on planeeritud kasutada ka sama uuringu käigus leitud esemete kildude fotosid, et treenida tehisintellektimudelit ühe eseme juurde kuulumise tõenäosust määrama.

Kuna mitmest esemest on 12 aasta jooksul tehtud korduvalt fotosid, on teine eesmärk määrata foto põhjal eseme võimalikke lagunemistunnuseid. Klaasi puhul on selleks iriseerumine (vikerkaarekarva kiht klaasi pinnal), õitsemine (mikropraod) ja muud füüsilised kahjustused (nt kildude murdumine eseme küljest, purunemine). Selle etapi tulemusel selgub, kas uurijate tehtud fotosid on mäluasutustel võimalik kasutada esemete seisukorra muutuste hindamiseks, mis võimaldaks tagada kultuuripärandi parem säilimine. Kasutatav mudel on alles valimisel, planeeritud on katsed mitme mudeliga.

Märksõnad: Püsi-identifikaator, Postitamine, Avaldamine

Käesolev töövoo samm on kahetasandiline. Kuna projekti eesmärgiks on kogutud toorandmete ehk suuremahulise tööfotode kogumi avaldamine, on see esmalt planeeritud pärast andmete puhastamist, aga enne mitmete leidudega piltide töötlust (lõikamist) üksikleiufotodeks. Fotokogu töötlemata originaalid on planeeritud avaldada läbi DataDOI (DataCite Eesti) ning andmetega koos avaldatakse metaandmed (.txt kujul) kasutades Kultuuripärandi andmelehti (vt eespool). Sel moel saavad toorandmed püsiidentifikaatori (DOI). Tööfotode publitseerimise ja korrastamise protsessist on planeeritud kirjutada ka teadusartikkel. Uurime iga pildi jaoks IIIF-manifestide loomise võimalust, mis kindlustab koostöövõimekuse, parema juurdepääsu ja pikaajalise jätkusuutlikkuse. Eduka tulemuse korral on iga pildi IIIF-versioonid teadlastele kättesaadavad.

Andmete analüüsi ja kasutuse käigus kogutud kogemused, loodud mudel ja saadud tulemused on samuti eraldi publikatsioonidena planeeritud. Töövoogu ja tulemusi on plaanis jooksvalt jagada sotsiaalmeedias ja teadusettekannetega. Avaldamise juurde käib avaldamisprotsessi ning meediaplaani jälgimine, sest töövoos on mitu paralleelselt jooksvat sammu. Publikatsioonid ja avaldatud andmekogud on koondatud klassifikaatorite ja täisviidetega kronoloogilises järjestuses. Lisaks aruandlusele on see vajalik ka uute uurimisprojektide kujundamisel.