Exploring trends in attentional change on a large scale with ngrams

Töövoog võimaldab analüüsida eri kategooriate mainimissagedusi pika ajavahemiku jooksul või tihedate andmetega, et teha nähtavaks sarnasused ja tõstatuvad mustrid. Andmed koondatakse maatriksiteks, mille põhjal luuakse kuumkaarte (heatmap’e), mis võimaldavad esitada suuri andmehulkasid visuaalselt selgelt ja võrreldavalt. Neid visuaale saab lugeda nii ajas kui ka kategooriate lõikes, mis teeb võimalikuks eri perioodide ja teemade kõrvutamise ning ühendab intuitiivse kvalitatiivse visuaalse analüüsi kvantitatiivsete meetoditega. Seejuures rakendatakse matemaatilisi teisendusi (nt normaliseerimine ja logaritmitransformatsioon), mis aitavad esile tuua suhteid eri vaatepunktidest ja juhul kui andmete väärtused on väga erinevad. Täiendavat vaatenurka pakuvad teised andmeteaduslikud meetodid, nagu ajaseeriate vektoriseerimine ja klasterdamine.

Näites uurisime sõna „Ukraina” mainimissagedust 28 erinevas keeles 15 aasta jooksul Twitteri (nüüd X) andmestikus, mis põhineb avalikust APIst pärit andmetel. Eesmärk oli mõista, kuidas ja millal Ukrainale osutatud tähelepanu eri keeltes kasvanus või vähenes.

Workflow steps

Keywords: Conceptualization, Discovering, Inquiries, Preprocessing

Etapi eesmärk oli valida uurimisteema, esmased uurimisküsimused ja andmestik, ning samuti andmete alla laadimine ja sobivasse vormingusse panek. Näidisuurimuses kasutasime Storywrangleri avaandmestiku API-t, kus on Twitteri säutsude kasutussagedused selle kasutusaajaloo jooksul, kuni Twitteri suuremahulise teadusliku kasutuse sulgemiseni 2023. Eesmärk oli saada Ukrainat puudutavate säutsude sagedused. Selleks valisime sobivaimad eri keeltes “Ukrainale” osutavad märksõnad leidmist, mis hõlmas tõlkimist ning andmebaasist esmaste katseotsingute tegemist.

Iga alla laetud märksõna lisati ühte tabelisse, milles sisaldus huvipakkuv kategooria (meie näites keel) ning 15 aasta jooksul iga päeva kohta sagedus. See tabel on sisendiks edasisele analüüsile.

Keywords: Data Visualization, Preprocessing, Exploration, Sequence alignment

Etapp koosnes katse-eksitus meetodil esialgsete andmejooniste loomisest, mis andis andmestikust üldpildi ning aitas tuvastada olulisemad mustrid. Esmalt katsetasime joondiagramme, mis on 28 muutuja eristamiseks ja võrdlemiseks raskesti loetav, seejärel lõime Excelis esmase versioon kuumkaardist. Seejuures katsetasime erinevaid transformatsioone, nagu logaritmiline skaala ning eri keeltes vastava oodatava tähelepanu osakaaluga arvestamine.

Etapi tulemusena saadi esmane ülevaade andmetest ja kesksetest leidudest. Leiti kasulikumad andmete teisendamise viisid ning visualiseerimisviisi ülevaate andmiseks.

Keywords: Data Visualization, Exploration, Sequence alignment, Distance measurement, Principal component analysis, Cluster analysis

Selles etapis analüüsisime esmaseid tulemusi ja visualiseeringuid ning lõime nende põhjal täpsemad joonised ja täiendavad analüüsid. Viisime Excelis loodud esmase kuumkaardi Pythonisse üle ning valisime sobivad teegid ja visuaalsed väljendusviisid. Lisaks rakendasime lähemaks analüüsiks vektoranalüüsi ja klasterdamist koos neid toetavate visualisatsioonidega.

Lisaanalüüsidel lähtusime esmastest tulemustest, mis osutasid olulisematetele ajaperioodidele vastavalt keeltele nagu, oodatult, 2014. ja 2022. aasta Venemaa sissetung Ukrainasse. Tulemuseks oli mitmel arvutuslikul meetodil põhinevad visualiseeringud ja ülevaated peamistest mustritest.

Keywords: Visual analysis, Modeling, Teooria loomine, Contextualizing, Design, Writing

Etapi eesmärk oli struktureeritult üles märkida ja tõlgendada eelnevate analüüside põhjal esile kerkinud tulemusi ja vajadusel visualiseeringuid märgendada. Täpsustasime jooniseid, et rõhutada olulisimad (näiteks konkreetseid sündmusi või perioode) ning töötasime välja ettekannete ja teadusartiklite jaoks sobiva narratiivi.

Näiteks valisime välja kesksemad visualiseeringud, mille märgendasime pilditöötlustarkvaras. Kinnitasime sobivad teoreetilised lähtekohad ja viimistlesime kirjandusülevaate. Korrastasime artikli ja joonised narratiivist lähtudes, näiteks jagades analüüsi osad micro-, meso- ja macro-tasandile, mis suhestas eri meetodid ja tulemused.