Hoppa till huvudinnehåll

"Grävgruppen behöver dataanalytiker"

fredag, september 17, 2021

Med AI-baserade språkmodeller får redaktioner en helt ny verktygslåda. I det femte avsnittet av Medier och demokrati-podden är Love Börjeson från Kungliga Biblioteket gäst. Han förklarar vad språkmodeller är, vad de kan användas till och hur man som redaktion kommer igång.

Hur skulle du göra för att analysera en databas med en och en halv miljard textstycken? För några år sedan skulle svaret sannolikt blivit "du skojar, det går inte". Idag är svaret: "Använda artificiell intelligens."

– Om jag satt på en redaktion och skulle stödja mitt grävande team skulle jag ge dem tre-fyra data scientists, säger Love Börjeson, föreståndare på Kungliga Bibliotekets KB-labb i det fjärde avsnittet av Medier och demokrati-podden.

Natural language processing, NLP, är ett samlingsbegrepp för artificiell intelligens som gör det möjligt för datorer att hantera mänskligt språk. På svenska används ofta begreppet språkmodeller, och rymmer bland annat lösningar som låter datorer analysera innehåll, sammanfatta, översätta och skapa text eller transkribera tal till text.

I avsnittet ger Love Börjeson bland annat exempel på hur språkmodeller kan användas för att få överblick och snabbt hitta i riktigt stora textmängder, bland annat genom funktioner som hittar textavsnitt som liknar varandra. Ett annat exempel handlar om teknik som analyserar innehållet och kan gruppera det utifrån ämne och sentiment.

För stora språk som engelska och kinesiska har utvecklingen av språkmodeller kommit långt. Men incitamenten att jobba med svenska är små för de globala jättar som driver utvecklingen internationellt. Här är det istället nationella insatser som behövs, och i det arbetet har Kungliga Biblioteket en nyckelroll. Biblioteket sitter på stora samlingar, men utvecklar också språkmodeller på svenska i samarbete med bland andra AI Sweden och RISE.

Men varför tycker då Love Börjeson att redaktionerna behöver egna dataanalytiker? För att de ska kunna bygga skräddarsydda lösningar utifrån reportrarnas behov och med de svenska språkmodellerna som utgångspunkt. KB har valt att inte bygga gränssnitt, färdiga lösningar, med modellerna som grund.

– Det är bättre att vi koncentrerar oss på det som bara vi kan göra, så får andra ta fram applikationerna, säger Love Börjeson.

Vill du läsa mer om KB:s modeller kan du göra det här. Alla publicerade modeller finns på HuggingFace

Samtalet leds av Anders Thoresson, projektledare för ”Mediebranschen och AI”, ett pilotprojekt i samverkan mellan Medier & demokrati, AI Sweden, Bonnier News Local, Stampen och Sveriges Television.

Lyssna på eller ladda ner podden här