Fremsat den 19. december 2023 af Lisbeth Bech-Nielsen (SF) og Karina Lorentzen Dehnhardt (SF)
Tilhører sager:
Aktører:
AX29509
https://www.ft.dk/ripdf/samling/20231/beslutningsforslag/b101/20231_b101_som_fremsat.pdf
Fremsat den 19. december 2023 af Lisbeth Bech-Nielsen (SF) og Karina Lorentzen Dehnhardt (SF) Forslag til folketingsbeslutning om at skabe en stor dansk sprogmodel, også kaldet LLM eller large language model Folketinget pålægger regeringen i indeværende folketings- samling at igangsætte arbejdet med at udvikle en dansk ge- nerativ sprogmodel, bl.a. med brug af data, der er tilgænge- lige hos Det Kgl. Bibliotek og andre større vidensdatabaser. Beslutningsforslag nr. B 101 Folketinget 2023-24 AX029509 Bemærkninger til forslaget Forslagsstillerne ønsker, at Danmark udvikler en stor dansk sprogmodel, også kaldet Large Language Model, LLM, som vi kender fra bl.a. OpenAI’s ChatGPT. Både i EU-regi og nationalt i Danmark har vi nogle særli- ge værdier og regelsæt, som de amerikanske sprogmodeller ikke tager højde for. Derfor mener forslagsstillerne, at vi nationalt bør arbejde for at være uafhængige af udenlandske kommercielle interesser og have fokus på datasikkerhed, transparens og dansk indhold i en dansk sprogmodel. Andre lande, bl.a. vores skandinaviske naboer, er langt foran os og har fået øjnene op for potentialet i kunstig intel- ligens, og i Sverige er man gået i gang med at udvikle en sprogmodel på svensk (»Sverige er i færd med at udvikle sin egen AI sprogmodel«, Dansk IT Sikkerhed, den 11. ok- tober 2023, og »Skal vi stole på de amerikanske chatbots eller øh ... bare lave vores egne? «, www.zetland.dk, den 9. oktober 2023). Hvis vi vil sikre os, at kunstig intelligens kan anvendes til fulde i en dansk kontekst uden risiko for større fejl, bør vi udarbejde en dansk sprogmodel, som kan tage højde for danske kulturelle normer, værdier, love og regler. Behovet for at udarbejde en stor dansk sprogmodel er presserende, og det bør derfor sættes i værk snarest muligt. Det handler basalt set om at redde det danske sprog og den danske kultur. Vi kender i forvejen OpenAI’s ChatGPT, der bliver mere og mere udbredt og anvendes i et fortsat bredere perspek- tiv. ChatGPT kan meget, men den amerikanske sprogmodel tager ikke højde for danske kulturelle normer og værdier, der ikke indlejres i amerikanske sprogmodeller. Hvis man f.eks. spørger chatbotten, om man må stille en barnevogn foran en café, vil den på det kraftigste fraråde dig det og pointere, at du desuden kan blive straffet for det. Den kender ikke til de uskrevne danske regler eller dansk lovgivning. Der er forskel på, om en sprogmodel primært kender til thanksgivingtraditionen, amerikansk fodbold, 4. juli-fejring og pickuptrucks, eller om dens primære udgangspunkt er juleaften, håndbold, den 5. juni og christianiacykler. Det ene vidensgrundlag er ikke nødvendigvis bedre end det andet, men det skaber to forskellige udgangspunkter og dermed en forskel på det produkt, vi får, når vi anvender sprogmodel- len. Forslagsstillerne mener, at vi bør se generativ AI og til- svarende fremtidige teknologier som kritisk infrastruktur på lige fod med f.eks. veje, vand og elforsyning. Derfor bør en dansk sprogmodel på en eller anden måde være ejet af fællesskabet. Forslagsstillerne ser helst et offentligt ejerskab eller et offentlig-privat samarbejde. Forslagsstillerne mener ikke, at det vil være sikkerheds- mæssigt forsvarligt at overlade vigtig ny digital infrastruktur til udenlandske techgiganter og fortsætte med udelukkende at anvende en sprogmodel, som vi ikke har nogen kontrol over. Sprogmodeller er noget relativt nyt, men de og andre kunstig intelligens-produkter er helt sikkert kommet for at blive. Teknologien er hverken ond eller god, men vi er nødt til at sikre demokratisk kontrol med teknologien. Bl.a. står vores uddannelsesinstitutioner over for at skulle forholde sig til kunstig intelligens og brugen af det i under- visning, forskning og andet. Det understreger også behovet for en danskbaseret national sprogmodel, hvor datasikker- hed og indhold er i trygge hænder. Træning af en sprogmodel En sprogmodel skal fodres med enorme mængder tekst. Her foreslår forslagsstillerne at lave et samarbejde med Det Kgl. Bibliotek, lex.dk og andre, der må ses som en ideel partner i forhold til træningsdata i form af tekst og vi- denskabelige artikler. Brug af træningsdata skal selvfølgelig være under forudsætning af, at de rettighedsmæssige forhold kan afklares. En dansk sprogmodel skal desuden være præ- get af transparens, så vi i det omfang, det er muligt, kan forstå, hvilket datagrundlag der ligger bag. Det samme gør sig gældende for den algoritme, der skal danne grundlag for en dansk sprogmodel. Økonomi og finansiering Det anslås, at udviklingen og etableringen af en open source-baseret dansk basismodel vil koste omkring 40 mil- lioner danske kroner. Beløbet er anslået ud fra, at det har kostet OpenAI i omegnen af 5 mio. dollars at ud- vikle ChatGPT3 i 2020 (»How much did GPT-3 cost?«, www.pcguide.com, den 11. august 2023). Omkostningerne til udvikling af en dansk sprogmodel kan variere alt efter forskellige modeller. Forslagsstillerne er vil- lige til at drøfte forskellige udformninger og dermed også omkostninger og finansiering. En stor del af omkostningerne vil være til computerkraft, da det kræver store mængder data at træne og vedligeholde en stor sprogmodel. Det vil være muligt at leje denne kapa- citet på europæiske servere, hvilket vil give en høj grad af fleksibilitet og plads til nye træningssæt. En stor dansk sprogmodel vil også kunne etableres på nationalt placerede servere, men med mindre fleksibilitet som omkostning. Forslagsstillere ønsker at finansiere en dansk sprogmodel gennem det økonomiske råderum, men er åbne for at disku- tere andre finansieringsformer. SF har i sit finanslovsudspil peget på en række forskellige finansieringskilder, som for- slagsstillerne er villige til at drøfte. 2 Skriftlig fremsættelse Lisbeth Bech-Nielsen (SF): Som ordfører for forslagsstillerne tillader jeg mig herved at fremsætte: Forslag til Folketingsbeslutning om at skabe en stor dansk sprogmodel, også kaldet LLM eller large language model (Beslutningsforslag nr. B 101) Jeg henviser i øvrigt til de bemærkninger, der ledsager forslaget, og anbefaler det til Tingets velvillige behandling. 3