Skip to main content
22. desember 2020

Aflar gagna fyrir framtíð íslenskunnar með leiknum Málfróða

Aflar gagna fyrir framtíð íslenskunnar með leiknum Málfróða - á vefsíðu Háskóla Íslands

„Íslensk tunga hefur alltaf verið stóra ástin í lífi mínu,“ segir Atli Jasonarson, meistaranemi í máltækni við Háskóla Íslands. Hann hefur búið til tölvuleikinn Málfróða þar sem áhugafólk um íslenska tungu keppir um það sín á milli hver getur lagt mest af mörkum til íslenskunnar á tímum þar sem hraðar tæknibreytingar ógna tungumálinu. Afrakstur þessa skemmtilega leiks getur m.a. nýst í nýjar tæknilausnir sem veita ráðgjöf um viðeigandi orðaval við hin ýmsu tilefni.

Flestöll snjalltækni samtímans hefur hingað til eingöngu verið Íslendingum aðgengileg á ensku. Á undanförnum árum hefur þó nokkrum verkefnum á sviði máltækni verið ýtt úr vör hér á landi þar sem markmiðið er að gera fólki kleift að tala íslensku við t.d. tölvur, farsíma og önnur snjalltæki. Með aðferðum tölvunarfræði, málvísinda, gervigreindar, sálfræði og fleiri greina er því verið að þróa búnað sem getur unnið með, skilið og myndað mannlegt mál.

Til þess að sá búnaður virki þarf gagnasöfn um notkun tungumálsins og þar kemur Málfróði til sögunnar. Leikurinn er meistaraverkefni Atla í máltækninámi en Háskóli Íslands og Háskólinn í Reykjavík hófu að bjóða upp á námið í sameiningu haustið 2019. Atli, sem státar af BA-prófi í íslensku, segist strax hafa orðið spenntur þegar hann heyrði af náminu „þar sem það sameinaði tvö minna helstu áhugamála, íslenskt mál og forritun, og það kom í raun aldrei til greina að skrá mig ekki í það þótt ég hafi þurft að bíða í tæp tvö ár eftir því að það yrði loks kennt. Sú bið var svo sannarlega þess virði.“ 

Tekist á við óviðeigandi og viðeigandi mál

Hugmyndin á bak við Málfróða kviknaði í samtali Atla og leiðbeinanda hans, Antons Karls Ingasonar, lektors í máltækni við Íslensku- og menningardeild. „Hann vissi að ég hef mikinn áhuga á tölvuleikjagerð, sem ég var svo heppinn að fá að læra við HR vegna máltæknisamstarfs háskólanna, og hann spurði mig hvort við gætum ekki einhvern veginn leikjavætt gagnaöflun fyrir íslensku. Mér leist vel á þá hugmynd og ég vann hjá honum lítið rannsóknarverkefni á vorönn þessa árs. Þar varð grunnurinn að Málfróða til en hann hefur tekið miklum stakkaskiptum síðan þá,“ segir Atli.

Málfróði grundvallast á lýðvirkjun sem Atli hefur lengi haft áhuga á en hún snýst um að virkja almenning í hvers kyns gagnaöflun. Ætlunin er að safna gögnum um íslenska tungu sem geta með einum eða öðrum hætti gagnast við málfarsráðgjöf. „Tilbrigði tungunnar eru æði margslungin og fólk hefur mjög mismunandi tilfinningu gagnvart þeim. Það sem mér þykir formlegt getur þér þótt óformlegt og það sem þér þykir viðeigandi getur mér þótt óviðeigandi,“ segir Atli.

Hann bendir einnig á að umræða um viðeigandi og óviðeigandi orðalag hafi orðið háværari að undanförnu. „Þetta á t.d. við um orð sem eru e.t.v. kynjaðri en efni gefur til, t.d. hjúkrunarkona, orð sem eru talin geta ýtt undir mismunun gagnvart ýmsum þjóðfélagshópum eða eru að einhverju öðru leyti úrelt. Það er mjög mikilvægt að kanna þessi orð nánar og rannsaka hvert viðhorf málhafa er til þeirra,“ segir hann.

Og út á það gengur leikurinn, að meta hvort tiltekin orð eru viðeigandi eða óviðeigandi, óformleg eða formleg, setningar vondar eða góðar og hvernig má hugsanlega bæta þær. Jafnframt er að finna samheitaorðabók á Málfróða sem spilarar búa til sjálfir. „Mér þykir mjög spennandi að búa til samheitaorðabók sem er ekki sett saman af einhverjum einum eða litlu teymi heldur raunverulegum málhöfum íslenskrar tungu, sem hafa mjög mismunandi tilfinningu fyrir því hvað getur talist samheiti og hvað ekki. Notendur geta einnig samþykkt samheitapör eða hafnað þeim og þannig er vonandi hægt að kortleggja tilfinningu fjöldans fyrir samheitum,“ segir Atli um leikinn. 

„Tilbrigði tungunnar eru æði margslungin og fólk hefur mjög mismunandi tilfinningu gagnvart þeim. Það sem mér þykir formlegt getur þér þótt óformlegt og það sem þér þykir viðeigandi getur mér þótt óviðeigandi,“ segir Atli.

Keppni íslenskunnar vegna

Fyrir framlag sitt í leiknum fá þátttakendur stig fyrir þrennt. „Að senda inn gögn, að fá staðfestingu frá öðrum notendum að innsend gögn þess séu góð og með því að staðfesta að gögn annarra notenda séu góð. Notandi fær flest stig fyrir það að aðrir notendur lýsi yfir velþóknun sinni á þeim gögnum sem hann hefur sent inn og þannig er skapaður hvati fyrir notendur til að senda inn góð og raunveruleg gögn. Minn draumur er sá að bjóða notendum upp á einhvers konar þóknun eða verðlaun fyrir góða frammistöðu en ég, einn, er því miður ekki í stöðu til þess að bjóða upp á það (Blikk, blikk til stofnana og fyrirtækja sem vilja sjá íslenska tungu dafna og blómstra). Eins og staðan er í dag er þetta því annars vegar keppni keppninnar vegna og hins vegar íslenskunnar vegna,“ segir hann. 

Ef litið er á stigutöflu leiksins má ljóst vera að það eru fleiri en Atli sem hafa mikla ást á tungunni því þrír efstu keppendur hafa þú þegar sankað að sér nærri 15.000 stigum fyrir framlag sitt. 

Grunngögnin sem m.a. er verið að prófa í leiknum eru fengin víða að. „Óviðeigandiheitaorðalistinn var settur saman af frábæru fólki á rannsóknarstofunni Mál og tækni, rétt eins og villusetningarnar. Formlegheitaorðalistinn var að hluta til sóttur í opinn lista á vegum Samróms, máltækniverkefnis á vegum stjórnvalda, og grunnorðin í samheitaorðabókinni eru fengin úr Risamálheildinni svokölluðu en hún hefur að geyma gríðarlegan fjölda lesmálsorða. Ég kann fólkinu, sem vann þessi verk, endalausar þakkir og ég hefði aldrei getað smíðað Málfróða ef íslenskri máltækni hefði ekki fleygt svo fram síðustu ár,“ segir Atli.

Ætlaður öllum sem tala einhverja íslensku

Gögnin sem safnað verður frá íslenskum málhöfum verða öllum opin og geta nýst í ýmislegt. „Ég sé fyrir mér að hægt verði að nota þau í hugbúnað sem getur hjálpað fólki að forðast óþarflega formlegt/óformlegt/óviðeigandi orðalag. Samheitaorðabókin gæti þá jafnvel gagnast til þess að stinga upp á öðrum orðum í staðinn. Ef setningapörin verða nægilega mörg má e.t.v. nota þau sem hluta af þjálfunargögnum fyrir leiðréttingarhugbúnað en til þess þarf þó töluvert magn gagna. Gögnin verða opin og ég mun gera mitt allra besta til að hafa þau sem aðgengilegust þannig að fólk geti flett upp í þeim og aflað sér þekkingar,“ bætir Atli við.

Aðspurður undirstrikar hann að leikurinn sé fyrir öll sem tala íslenska tungu „hvort sem hún er þeirra fyrsta, annað, þriðja eða tólfta mál. Það er í raun mjög mikilvægt að fólk á öllum aldri, af öllum kynjum og með sem fjölbreyttastan bakgrunn taki þátt, því einungis þannig er hægt að segja að gögnin endurspegli viðhorf málhafa. Máltilfinning fólks er jafnmismunandi og við erum mörg og það er mjög mikilvægt að hægt sé að endurspegla það og taka mið af því við gerð gagna og hugbúnaðar sem snýr að íslenskri tungu.“

Hægt er kynna sér Málfróða og leggja sitt af mörkum í leik á malfrodi.is

Atli Jasonarson