adsendar-greinar
Anna Björk Nikulásdóttir, sérfræðingur í máltækni.

„Vinn við að kenna tölvum íslensku“

– segir Anna Björk Nikulásdóttir, sérfræðingur í máltækni

 

Máltæknifyrirtækið Grammatek hóf starfsemi á Akranesi síðasta vor. Að því standa hjónin Anna Björk Nikulásdóttir og Daniel Schnell. Skessuhorn hitti Önnu að máli síðastliðinn fimmtudagsmorgun og fékk að heyra um fyrirtækið og verkefni þess. Ekki er úr vegi að byrja að spyrja Önnu; hvað er máltækni? „Þegar ég er spurð hvað ég geri þá svara ég því gjarnan að stutta svarið sé að ég vinni við að kenna tölvum íslensku,“ segir Anna í samtali við Skessuhorn. „Máltækni er sambland af tölvunarfræði og málvísindum. Hún felur í sér alla vinnslu með tungumálið í tölvum og er ótrúlega víðfeðmt svið þar sem mörg fagsvið koma við sögu. Það þýðir að kenna þarf tölvum að skilja tungumál, hvort sem við skrifum eða tölum við þær og síðan eftir atvikum kenna þeim að svara,“ segir hún. „Að þessu ferli býr gríðarlega mikil bakvinnsla sem byggir á enn öðrum hugbúnaði og gögnum sem liggja máltækninni til grundvallar,“ bætir hún við.

 

Mikilvægt að tölvur skilji

Hún segir að gríðarlega mikill kostur geti falist í því að kenna tölvum að skilja tungumál. „Tölvur geta til dæmis lesið gífurlega mikið á mjög stuttum tíma. Þær komast yfir magn af textum sem við getum ekki einu sinni látið okkur dreyma um. En áskorunin er að vinna upplýsingar sjálfvirkt úr gögnunum,“ segir Anna og nefnir leitarvélar sem dæmi. „Lengi var það þannig að ef maður skrifaði eitthvað orð í leitarvél þá leitaði tölvan að akkúrat því orði og akkúrat þeirri orðmynd. Nú eru leitarvélarnar orðnar öflugri og finna oft skyld orð og beygingarmyndir,“ segir Anna. „Þetta eru einföld atriði sem geta hjálpað gríðarlega mikið, en voru ekki möguleg hér áður. Þá fann maður ekki hestinn ef maður leitaði að „hestur“ en svona atriði geta hjálpað til við að bæta niðurstöður. Til þess að hjálpa fólki að finna nákvæmlega það sem leitað er að, bætast svo við frekari greiningar á merkingu fyrirspurna og innihaldi texta, en það er svið sem er í stöðugri þróun,“ segir hún.

Dæmi um leitarvél sem leitar að leitarorðinu í mörgum orðmyndum er leitarvélin á vefnum timarit.is. Þar má haka við „velja beygingarlýsingu“ og þá er leitarvélin samkeyrð við Beygingarlýsingu íslensks nútímamáls. Sé slegið inn leitarorðið „hestur“ sýnir vélin niðurstöður fyrir allar beygingarmyndir orðsins. „Það er einmitt dæmi um máltækni,“ segir Anna.

 

Byggja upp innviði máltækninnar

En hver er staða máltækninnar hér á landi? „Í fyrradag [þriðjudaginn 1. október; innsk. blm.] hófst formlega, eftir áralangan undirbúning, mjög stórt verkefni um að koma máltækni fyrir íslensku virkilega vel af stað. Um er að ræða stórt samstarfsverkefni sem níu aðilar koma að; Háskóli Íslands og Háskólinn í Reykjavík, Árnastofnun, RÚV, Creditinfo, sprotafyrirtækin Grammatek, Tiro og Miðeind, og Blindrafélagið. Búið er að semja til eins árs um að þróa alls kyns grunngögn og grunnhugbúnað sem þarf að vera til staðar svo hægt sé að fara að þróa vörur, annan hugbúnað fyrir fólk til að nota,“ segir Anna. „Það er svo mikið sem liggur þar til grundvallar, eins og til dæmis beygingarlýsingin og slík gögn, stór textasöfn sem eru merkt á ákveðinn hátt sem þarf að nota til að þróa ákveðin líkön. Einnig grunnhugbúnaður til þess að framkvæma ýmsar málfræðilegar greiningar, talgreinir, talgervill, þýðingarvél og stafsetningar- og málfarsleiðréttingahugbúnaður. Þetta eru innviðir sem þurfa að vera til staðar áður en hægt er að fara að þróa hugbúnað sem við síðan myndum sjá sem notendur máltækninnar,“ segir hún. „Við lítum gjarnan á að við séum að leggja vegakerfi fyrir máltækni. Sem dæmi þarf talgreini og talgervil ef einhver ætlar sér að búa til app sem hægt er að tala við. Þessar afurðir munu standa öllum opnar án endurgjalds og vonumst við til að þessi vinna skapi góðan grunn fyrir nýsköpun í greininni. Þetta eru í raun innviðirnir sem við erum að byggja upp núna,“ útskýrir Anna, en bætir því við að þegar hafi töluverð vinna við þessa grunninnviði verið unnin, svo sem beygingarlýsingin, stórar málheildir og textasöfn sem hafi verið safnað saman á löngum tíma. Þá hafi töluverð vinna farið fram í talgreiningu fyrir íslensku. „Meira að segja er kominn í notkun hugbúnaður niðri á Alþingi, sem skrifar allar þingræður og undirbýr fyrir ræðusviðið, sem síðan undirbýr textana til birtingar,“ segir hún. Fyrsta uppkast allra ræðna sem birtast á vef Alþingis er því skrifað af tölvu, sem sparar töluverða vinnu. Síðan kemur mannshugurinn og -höndin að á seinni stigum, til að annast frágang til birtingar.

 

Máltækni komin til að vera

Sjálf lærði Anna máltækni úti í Þýskalandi á sínum tíma, hóf nám fyrir 19 árum síðan en þá var máltækni rétt að byrja að ryðja sér til rúms. „Ég byrjaði að læra árið 2000 en árið áður hafði komið út fyrsta íslenska skýrslan um máltækni. Þær eru búnar að koma út margar síðan,“ segir hún og hlær við, „og ég tók þátt í að skrifa þá síðustu sem þessi áætlun sem núna er að fara af stað loksins af fullum krafti byggir á,“ segir hún. „En máltækni hefur farið á rosalegt flug á undanförnum árum. Það kemur fyrst og fremst til af nýrri tækni, það er svo margt sem er orðið mögulegt. Svo sér fólk bara sem hefur notað Siri og Alexu til að eiga samskipti við snjalltækni sín að máltækni er bara komin til að vera, að minnsta kosti fyrir þessi stóru tungumál eins og ensku,“ segir Anna. „Þá vöknum við hérna og sjáum að við verðum að fara af fullum krafti í máltækni fyrir íslensku, annars er þessi tækni bara að fara að valta yfir okkur,“ bætir hún við. Með stóru máltækniáætluninni er einmitt ætlunin að fara af fullum krafti í þróun máltækni fyrir íslensku, en 20 ár hefur tekið að koma því verkefni á þann stað sem það er á í dag. Grammatek er sem fyrr segir eitt þeirra fyrirtækja sem tekur þátt í stóru máltækniáætluninni. Þar er Anna verkefnastjóri og sér um að halda saman öllum þráðum. Hún segir verkefnið gríðarlega umfangsmikið og margt í gangi.

 

Sæmi svarar bæjarbúum

Auk þess að vinna að stóru máltækniáætluninni vinnur Grammatek að verkefni í samstarfi við Akraneskaupstað. Ber það vinnuheitið Sæmi svarar. „Í því felst að við erum að útbúa prótótýpu af kerfi sem má spyrja beinna spurninga um efni sem finnst á heimasíðu sveitarfélags. Það er eðli svona heimasíðu að þar er að finna rosalega fjölbreyttar upplýsingar sem verður erfitt að skipuleggja og finna jafnvel þó að heimasíðan sé gríðarlega vel gerð,“ segir Anna. „Þá á fólk erfitt með að leita og finnur jafnvel ekki einfaldar upplsýingar. Við erum sem sagt að gera tilraun með kerfi sem býður upp á að fólk spyrji beinna spurninga, með tali eða skrifum, í stað þess að skrifa inn leitarorð. Þá gæti hver sem er til dæmis farið inn á heimasíðu Akraneskaupstaðar og spurt beint; „hvenær er opið í Guðlaugu?“ og fengið svar um hæl,“ segir Anna. Um er að ræða tilraunaverkefni til eins árs, sem nýtur styrks úr Markáætlun í tungu og tækni. Frumútgáfa kerfisins er væntanleg með vorinu. „Fyrsta árið verður tilraunaár og kannski má ekki búast við neinu svakalegu kerfi. En prótótýpan á að sýna fram á möguleikana. Ef þetta reynist vel sjáum við til hvaða grundvöllur og áhugi er fyrir áframhaldandi samstarfi. En við hjá Grammatek vonum auðvitað fyrir okkar leyti að þetta sé byrjunin á einhverju meiru,“ segir Anna.

 

Vilja starfa í heimabyggð

En hvernig kom það til að Anna og Daniel ákváðu að stofna máltæknifyrirtæki á Akranesi? „Að stórum hluta áhugi á að starfa í heimabyggð, fyrir okkur persónulega. Ég er héðan og bý hér og hef búið hér þó ég hafi verið að vinna í Reykjavík,“ segir hún. „Einnig þykir okkur mikilvægt fyrir stað eins og Akranes að hafa fjölbreytta atvinnustarfsemi. Þetta eru okkar lóð á þær vogarskálar,“ segir hún en vill þó ekki meina að nein skyldurækni hafi legið þar að baki. „Nei, þetta er bara eiginhagsmunasemi,“ segir hún létt í bragði. „Við viljum starfa í heimabyggð við það sem er okkar fag. En á sama tíma teljum við auðvitað og vonum að það sé samfélaginu til hagsbóta að fá eitthvað sem þetta inn í flóruna. Með tíð og tíma geta vonandi fleiri notið góðs af og gengið til liðs við okkur,“ segir hún og bætir því við að Grammatek vanti fólk til starfa. „Okkur bráðvantar að fá annars vegar íslenskufræðing til liðs við okkur og hins vegar meistaranema í málfræði, til að vinna að afmörkuðum verkefnum,“ segir Anna. Þau hjónin eru þar með nú þegar farin að stuðla að atvinnusköpun. „Oft er ekki mikið um svona hátæknistörf á landsbyggðinni, það er eins og þau færist yfirleitt til Reykjavíkur. En þau þurfa alls ekkert endilega að vera þar. Núna erum við að auglýsa eftir fólki og það þarf ekkert að vera búsett hér, það getur unnið þetta hvar sem er ef það vill. Mér finnst svolítið mikilvægt að koma þessu á framfæri, því það eru lítil sprotafyrirtæki til um allt land. Alveg eins og landsbyggðarfólk getur unnið fyrir fyrirtæki í höfuðborginni geta höfuðborgarbúar allt eins unnið í fjarvinnu fyrir fyrirtæki á landsbyggðinni,“ segir Anna Björk Nikulásdóttir að endingu.

Líkar þetta

Fleiri fréttir

Ég er kominn til Afríku!

Mér líður eins og spóa, fyrir utan að það var líklegast mun auðveldara fyrir mig að fljúga með flugvél suður... Lesa meira