Fremsat den 19. december 2023 af Lisbeth Bech-Nielsen (SF) og Karina Lorentzen Dehnhardt (SF)

Tilhører sager:

På sagstrin: Forslag til folketingsbeslutning om at skabe en stor dansk sprogmodel, også kaldet LLM eller large language model. ()

Aktører:

AX29509

https://www.ft.dk/ripdf/samling/20231/beslutningsforslag/b101/20231_b101_som_fremsat.pdf

Fremsat den 19. december 2023 af Lisbeth Bech-Nielsen (SF) og Karina Lorentzen Dehnhardt (SF)
Forslag til folketingsbeslutning
om at skabe en stor dansk sprogmodel, også kaldet LLM eller large language
model
Folketinget pålægger regeringen i indeværende folketings-
samling at igangsætte arbejdet med at udvikle en dansk ge-
nerativ sprogmodel, bl.a. med brug af data, der er tilgænge-
lige hos Det Kgl. Bibliotek og andre større vidensdatabaser.
Beslutningsforslag nr. B 101 Folketinget 2023-24
AX029509
Bemærkninger til forslaget
Forslagsstillerne ønsker, at Danmark udvikler en stor
dansk sprogmodel, også kaldet Large Language Model,
LLM, som vi kender fra bl.a. OpenAI’s ChatGPT.
Både i EU-regi og nationalt i Danmark har vi nogle særli-
ge værdier og regelsæt, som de amerikanske sprogmodeller
ikke tager højde for. Derfor mener forslagsstillerne, at vi
nationalt bør arbejde for at være uafhængige af udenlandske
kommercielle interesser og have fokus på datasikkerhed,
transparens og dansk indhold i en dansk sprogmodel.
Andre lande, bl.a. vores skandinaviske naboer, er langt
foran os og har fået øjnene op for potentialet i kunstig intel-
ligens, og i Sverige er man gået i gang med at udvikle en
sprogmodel på svensk (»Sverige er i færd med at udvikle
sin egen AI sprogmodel«, Dansk IT Sikkerhed, den 11. ok-
tober 2023, og »Skal vi stole på de amerikanske chatbots
eller øh ... bare lave vores egne? «, www.zetland.dk, den 9.
oktober 2023).
Hvis vi vil sikre os, at kunstig intelligens kan anvendes
til fulde i en dansk kontekst uden risiko for større fejl, bør
vi udarbejde en dansk sprogmodel, som kan tage højde for
danske kulturelle normer, værdier, love og regler. Behovet
for at udarbejde en stor dansk sprogmodel er presserende,
og det bør derfor sættes i værk snarest muligt. Det handler
basalt set om at redde det danske sprog og den danske
kultur.
Vi kender i forvejen OpenAI’s ChatGPT, der bliver mere
og mere udbredt og anvendes i et fortsat bredere perspek-
tiv. ChatGPT kan meget, men den amerikanske sprogmodel
tager ikke højde for danske kulturelle normer og værdier,
der ikke indlejres i amerikanske sprogmodeller. Hvis man
f.eks. spørger chatbotten, om man må stille en barnevogn
foran en café, vil den på det kraftigste fraråde dig det og
pointere, at du desuden kan blive straffet for det. Den kender
ikke til de uskrevne danske regler eller dansk lovgivning.
Der er forskel på, om en sprogmodel primært kender til
thanksgivingtraditionen, amerikansk fodbold, 4. juli-fejring
og pickuptrucks, eller om dens primære udgangspunkt er
juleaften, håndbold, den 5. juni og christianiacykler. Det ene
vidensgrundlag er ikke nødvendigvis bedre end det andet,
men det skaber to forskellige udgangspunkter og dermed en
forskel på det produkt, vi får, når vi anvender sprogmodel-
len.
Forslagsstillerne mener, at vi bør se generativ AI og til-
svarende fremtidige teknologier som kritisk infrastruktur på
lige fod med f.eks. veje, vand og elforsyning. Derfor bør
en dansk sprogmodel på en eller anden måde være ejet af
fællesskabet. Forslagsstillerne ser helst et offentligt ejerskab
eller et offentlig-privat samarbejde.
Forslagsstillerne mener ikke, at det vil være sikkerheds-
mæssigt forsvarligt at overlade vigtig ny digital infrastruktur
til udenlandske techgiganter og fortsætte med udelukkende
at anvende en sprogmodel, som vi ikke har nogen kontrol
over.
Sprogmodeller er noget relativt nyt, men de og andre
kunstig intelligens-produkter er helt sikkert kommet for at
blive. Teknologien er hverken ond eller god, men vi er nødt
til at sikre demokratisk kontrol med teknologien.
Bl.a. står vores uddannelsesinstitutioner over for at skulle
forholde sig til kunstig intelligens og brugen af det i under-
visning, forskning og andet. Det understreger også behovet
for en danskbaseret national sprogmodel, hvor datasikker-
hed og indhold er i trygge hænder.
Træning af en sprogmodel
En sprogmodel skal fodres med enorme mængder
tekst. Her foreslår forslagsstillerne at lave et samarbejde
med Det Kgl. Bibliotek, lex.dk og andre, der må ses som en
ideel partner i forhold til træningsdata i form af tekst og vi-
denskabelige artikler. Brug af træningsdata skal selvfølgelig
være under forudsætning af, at de rettighedsmæssige forhold
kan afklares. En dansk sprogmodel skal desuden være præ-
get af transparens, så vi i det omfang, det er muligt, kan
forstå, hvilket datagrundlag der ligger bag. Det samme gør
sig gældende for den algoritme, der skal danne grundlag for
en dansk sprogmodel.
Økonomi og finansiering
Det anslås, at udviklingen og etableringen af en open
source-baseret dansk basismodel vil koste omkring 40 mil-
lioner danske kroner. Beløbet er anslået ud fra, at det
har kostet OpenAI i omegnen af 5 mio. dollars at ud-
vikle ChatGPT3 i 2020 (»How much did GPT-3 cost?«,
www.pcguide.com, den 11. august 2023).
Omkostningerne til udvikling af en dansk sprogmodel kan
variere alt efter forskellige modeller. Forslagsstillerne er vil-
lige til at drøfte forskellige udformninger og dermed også
omkostninger og finansiering.
En stor del af omkostningerne vil være til computerkraft,
da det kræver store mængder data at træne og vedligeholde
en stor sprogmodel. Det vil være muligt at leje denne kapa-
citet på europæiske servere, hvilket vil give en høj grad
af fleksibilitet og plads til nye træningssæt. En stor dansk
sprogmodel vil også kunne etableres på nationalt placerede
servere, men med mindre fleksibilitet som omkostning.
Forslagsstillere ønsker at finansiere en dansk sprogmodel
gennem det økonomiske råderum, men er åbne for at disku-
tere andre finansieringsformer. SF har i sit finanslovsudspil
peget på en række forskellige finansieringskilder, som for-
slagsstillerne er villige til at drøfte.
2
Skriftlig fremsættelse
Lisbeth Bech-Nielsen (SF):
Som ordfører for forslagsstillerne tillader jeg mig herved
at fremsætte: Forslag til Folketingsbeslutning om at skabe en stor
dansk sprogmodel, også kaldet LLM eller large language
model
(Beslutningsforslag nr. B 101)
Jeg henviser i øvrigt til de bemærkninger, der ledsager
forslaget, og anbefaler det til Tingets velvillige behandling.
3