Isabelle Johansson

Med hjälp av artificiell intelligens kan datorer lära sig att förstå och kommunicera med mänskligt språk. Svenskt Språkdatalabb vid AI Innovation of Sweden är som en träningsanläggning där upplärningen ska ske. – Visionen är att Språkdatalabbet ska bli en nationell, branschöverskridande kunskapsnod för språkteknologi, säger projektledaren Isabelle Johansson.

bild på kvinna i sena 20årsålden eller tidiga trettio

Datorer har alltid varit bra på matematik och logik, men haft svårare för mänskligt språk. Försöken att få datorer att klara det har ändå varit många. Men det är först med de senaste årens framsteg inom artificiell intelligens som utvecklingen tagit ordentliga kliv framåt.

Med hjälp av det som kallas för maskininlärning kan datorer på egen hand hitta mönster och samband i stora datamängder. Det innebär att en människa inte längre måste programmera exakta regler för hur ord och meningar ska tolkas. Istället kan datorerna lära sig det på egen hand, efter att först ha fått översiktliga instruktioner för hur en text ska förstås.

– Språkdatalabbets uppdrag är att utveckla och tillgängliggöra språkmodeller på svenska, de färdiga algoritmer som en dator behöver för att kunna använda mänskligt språk. Eftersom många företag fokuserar utvecklingen av NLP för större språk behövs nationella satsningar som den här, säger Isabelle Johansson.

NLP, natural language processing, är samlingsnamnet för den här teknikutvecklingen som ger en dator samma förmåga som en människa att inte bara känna igen enskilda ord i en text, utan att också förstå sammanhang, underliggande betydelse och andra meningsbärande aspekter.

Men tittar man närmare på hur mänskligt språk fungerar blir det snart uppenbart att det finns många olika aspekter av ”att förstå”. Därför behövs också olika språkmodeller, för olika delar av datorernas språkkunskaper. Modeller för named entity recognition och sentimentanalys är de första som Språkdatalabbet tar sig an.

Med named entity recognition kan datorn hitta egennamnen i en text, förstå vad som är personer, företag, organisationer och geografiska platser. En vanlig tillämpning för NER är att automatiskt kategorisera text, att exempelvis tagga en tidningsartikel med de personer och platser den handlar om. Sentimentanalys innebär att texten förstås utifrån underliggande känslostämning. Är det ilska, glädje, sorg eller lättnad som kommer till uttryck? Det här är modeller som bland annat kan användas för att analysera reaktioner i användarkommentarer.

Men en språkmodell behöver inte bara klara av olika aspekter av språk, utan också olika typer av språk. De två angränsande projekten Svenskt Medicinskt Språkdatalabb och Språkmodeller för svenska myndigheter tar sig till exempel an svenska som den används i vården respektive offentlig förvaltning. Donationer av andra textmängder från andra sektorer är också på gång.

– Modellerna presterar bättre i mer avgränsade sammanhang där de är anpassade efter det problem som de är avsedda för att lösa, och behöver därför tränas i motsvarande sammanhang. En viktig del i arbetet är sedan att utvärdera modellerna i sin avsedda kontext, säger Isabelle Johansson.

För att den här träningen ska bli möjlig att genomföra krävs tillgång till stora mängder text som kan fungera som träningsmaterial. Det som händer hos Svenskt Språkdatalabb handlar därför inte bara om teknik. Tillgången till träningsdata, genom donerade textmassor, är en väldigt viktigt del. Och kring de donationerna finns en hel del juridiska utmaningar.

– För texter som innehåller personuppgifter handlar det bland annat om att ta hänsyn till personlig integritet och GDPR. Frågor om upphovsrätt behöver också regleras. Arbetet med att få det tekniska, juridiska och etiska ramverket för datahantering på plats koordineras av Data Factory, ett annat av projekten vid AI Innovation of Sweden, säger Isabelle Johansson.

Visionen är att Svenskt Språkdatalabb ska bli en ”nationell, branschöverskridande kunskapsnod”. Varför behövs en sådan?
– Det svenska språket är inte knutet till en specifik bransch eller verksamhet. Det används överallt, och därför ser vi att det finns stora vinster med samarbete kring svensk NLP mellan olika branscher, verksamheter och organisationer – inklusive svenska medieföretag.

Om Svenskt Språkdatalabb
Natural language processing, NLP, handlar om att utveckla datorbaserade verktyg för att tolka, analysera och imitera det mänskliga språket. Med sådana verktyg blir det i nästa steg möjligt att bygga lösningar som förenklar och förbättrar både kommunikation mellan människa och dator och mellan människa och människa. NLP kan också användas för att låta datorer analysera innehåll i mänskligt språk, sammanfatta eller skapa helt ny text. Svenskt Språkdatalabb är ett Vinnova-finansierat projekt som leds av AI Innovation of Sweden. Den tekniska kompetensen inom NLP står Recorded Future, Gavagai och Talkamatic för. Språkbanken vid Göteborgs universitet är tillsammans med Sveriges Kommuner och Regioner behovsägare och dataägare.

Projektets syfte:

Ta fram och tillgängliggöra en generell svensk textmängd.
Ta fram och tillgängliggöra tränade, svenska språkmodeller.
Ta fram ett tekniskt, juridiskt och etiskt ramverk för hantering och publicering av svenska språkdatamängder.
Analysera text och modeller utifrån ett talat dialogperspektiv.
Utföra förstudier kring behovet av att ta fram domänspecifika språkdatamängder inom
medicinska och juridiska domäner.

Isabelle Johansson

Utskick från Medier & demokrati