Svar på spm. nr. S 744: Vil ministeren oplyse, hvad ministerens holdning er til Politikens artikel »Ministerium kendte til fejl i tests« fra den 3. april 2019, herunder om forskerne har ret i deres kritik, og om ministeriet var bekendt med, at de nationale test gav forkerte resultater i over halvdelen af de gennemførte test?

Tilhører sager:

Hovedtilknytning: Vil ministeren oplyse, hvad ministerens holdning er til Politikens artikel »Ministerium kendte til fejl i tests« fra den 3. april 2019, herunder om forskerne har ret i deres kritik, og om ministeriet var bekendt med, at de nationale test gav forkerte resultater i over halvdelen af de gennemførte test? ()

Aktører:

Svar på S744-.docx

https://www.ft.dk/samling/20181/spoergsmaal/S744/svar/1573649/2044436.pdf

Ministeren
Frederiksholms Kanal 21
1220 København K
Tlf.: 35 87 88 89
E-mail: stil@stil.dk
www.stil.dk
CVR-nr.: 13223459
11. april 2019
Sagsnr.: 19/05455
Folketingets Lovsekretariat
Christiansborg
Medlem af Folketinget Annette Lind (S) har den 3. april 2019 stillet mig
følgende spørgsmål nr. S 744, som jeg hermed skal besvare.
Spørgsmål nr. S 744:
”Vil ministeren oplyse, hvad ministerens holdning er til Politikens artikel
»Ministerium kendte til fejl i tests« fra den 3. april 2019, herunder om
forskerne har ret i deres kritik, og om ministeriet var bekendt med, at de
nationale test gav forkerte resultater i over halvdelen af de gennemførte
test?”
Svar:
Undervisningsministeriet har i februar 2016 offentliggjort en analyse af
sammenhængen mellem resultaterne i de nationale test for elever, som
har gennemført samme test to gange i den frivillige testperiode i efteråret
2014.
Resultaterne af analysen fremgår af et notat ("Undersøgelse af de natio-
nale tests reliabilitet"), som blev sendt til Børne- og Undervisningsudval-
get i februar 2016.
Med henvisning til notatet fremgår det af Politikens artikel ("Ministerium
kendte til fejl i tests"), at der er "forkerte resultater i over halvdelen af de
gennemførte nationale test". Undervisningsministeriet vurderer ikke, at
der kan drages denne konklusion på baggrund af notatet.
Undervisningsministeriet har den 3. april 2019 offentliggjort en presse-
meddelelse om notatets resultater og formidlingen til Børne- og Under-
visningsudvalget. Jeg har vedlagt pressemeddelelsen til orientering.
Jeppe Bundsgaard og Svend Kreiner har den 2. april 2019 offentliggjort
en undersøgelse af de nationale test i læsning i 8. klasse. Heri konklude-
rer de to forskere blandt andet, at en del af testopgaverne har forkerte
sværhedsgrader, og at testresultaterne er for usikre.
2018-19
S 744 endeligt svar
Offentligt
2
Undersøgelsen har givet anledning til en debat, som næsten kan efterlade
det indtryk, at elevernes testresultater er helt tilfældige. Jeg mener, at der
er behov for at nuancere debatten.
Det er i den forbindelse værd at bemærke, at der er en sammenhæng
mellem elevernes resultater i de nationale test og de samme elevers efter-
følgende karakter ved folkeskolens prøver. Jeg har vedlagt et notat, som
beskriver sammenhængen ("De nationale tests måleegenskaber"). Nota-
tet er tidligere sendt til Børne- og Undervisningsudvalget i september
2016. Samtidig viser en DAMVAD-rapport fra 2014, at der er en sam-
menhæng mellem resultaterne fra de nationale test og resultaterne fra
PISA-undersøgelserne. Rapporten er ligeledes vedlagt.
Jeg er optaget af, at de nationale test virker efter hensigten. Testenes
indhold og metode skal fagligt være i top, og arbejdet med testene skal
give mening for lærere, elever og forældre.
I 2018 har jeg besluttet at igangsætte en grundig evaluering af de nationa-
le test, som skal danne grundlag for justeringer. De kritikpunkter, som
Jeppe Bundsgaard og Svend Kreiner rejser i undersøgelsen, indgår allere-
de i den igangværende evaluering. Til orientering har jeg vedlagt opgave-
beskrivelsen for evalueringen, som viser, hvilke spørgsmål evalueringen
skal give svar på.
Jeppe Bundsgaard og Svend Kreiner sidder med i den rådgivningsgrup-
pe, der blandt andet består af forskere og fagfolk, som har rådgivet mini-
steriet om indholdet af evalueringen.
Evalueringen af de nationale test forventes afsluttet ultimo 2019. På bag-
grund af evalueringen vil det være relevant, at der i folkeskoleforligskred-
sen sker en grundig drøftelse af, hvilke justeringer der er behov for at
gennemføre i de nationale test.
Med venlig hilsen
Merete Riisager

Bilag 1- Pressemeddelelse .pdf

https://www.ft.dk/samling/20181/spoergsmaal/S744/svar/1573649/2044437.pdf

8.4.2019 Fakta om nationale test - Undervisningsministeriet
https://www.uvm.dk/aktuelt/nyheder/uvm/2019/apr/190403-fakta-om-nationale-test 1/3
/
Forside Nyheder
Fakta om nationale test
PRESSEMEDDELELSE · 3. april 2019
Avisen Politiken bringer i dag en historie under overskriften ”Ministerium kendte til fejl i
nationale tests i skolen”. I den forbindelse vil Undervisningsministeriet gerne præcisere en
række forhold om det omtalte notat.
Artiklen tager udgangspunkt i , som Undervisningsministeriet har sendt til Folketingets Børne- og
Undervisningsudvalg, som også kan findes på Folketingets hjemmeside. Man kan ikke på baggrund af notatet konkludere, at
der er fejl i halvdelen af testene, som Politiken skriver.
Undervisningsministeriets faglige vurdering
Et centralt kritikpunkt er en tabel i notatet, som viser sammenhængen mellem to resultater i to nationale test, som en elev har
taget med relativt kort mellemrum.
Hovedresultaterne i tabellen er nævnt i rapportens sammenfatning, men ikke i alle detaljer. Notatet viser samlet set, at
korrelationen totalt set er ”acceptabel” mellem elevens samlede vurdering i forsøg 1 og forsøg 2. Der er samtidig en række
faglige forklaringer på, hvorfor resultatet er, som det er, og hvorfor den omtalte tabel ikke er uddybet i sammenfatningen.
Tabellen viser ganske rigtigt, at der på 19 ud af 30 profilområder er en relativt lav sammenhæng (korrelationskoefficient)
mellem 1. og 2. testresultat. Alle sammenhængene er dog statistisk signifikante. Det betyder, at de elever, der får de bedste
resultater i 1. test, også er blandt de bedste i 2. test.
Den relativt lave sammenhæng er ikke en central pointe, og ministeriets faglige vurdering var, at pointen ikke kan
generaliseres. Det var ministeriets faglige vurdering i 2016, og det er det stadig.
Det skyldes, at elevernes adfærd og lærernes instruktion har meget stor betydning for sammenhængen mellem 1. og 2. test.
Elevens motivation og koncentration samt det antal dage, der går mellem de to gentagelser, har stor betydning. Faktisk større
betydning end selve testsystemets udformning.
De svageste statistiske sammenhænge gør sig især gældende i de test, hvor det er mest forventeligt. Sammenhængen er
svagest i de test med færrest deltagere, og hvor spredningen i resultaterne er mindst. Mindre spredning betyder i sig selv, at
korrelationskoefficienten bliver lavere. Det fremgår også af side 10 i samme rapport.
Som opfølgning på notatet fra februar 2016 har Undervisningsministeriet dels genberegnet korrelationerne i notatet, hvor
kun elever, der har gentaget testen inden for syv dage, er medtaget. Der er også lavet tilsvarende beregninger på baggrund af
simuleringer. Simuleringer har den fordel, at de ikke er påvirket af elevernes aktuelle testadfærd. Disse afspejler således bedre
de reelle forhold ved teknikken (algoritmen) i de nationale test. Disse beregninger findes i
og er også sendt til Folketinget.
Samtidig er det ministeriets faglige vurdering, at det er mere relevant at se på sammenhængen mellem testresultater og andre
resultater for eleverne. På vores hjemmeside er der flere andre rapporter om måleegenskaberne ved de nationale test. For
eksempel har vi set på sammenhængen mellem nationale test og elevernes resultater i PISA-undersøgelserne og ved
folkeskolens afgangsprøver. I begge tilfælde er der en udmærket sammenhæng mellem resultater fra de nationale test og
andre test og prøver. .
Intet har været holdt skjult
Der har ikke været holdt noget skjult. Rapporten ligger på Folketingets egen hjemmeside, fordi den er sendt til Børne- og
Undervisningsudvalget. De efterfølgende notater og beregninger er også offentligt tilgængelige.
I efteråret 2016 afholdt Folketingets Børne- og Undervisningsudvalg en offentlig høring om testene. Her deltog blandt andre
professor Jeppe Bundsgaard, som eksplicit gennemgik den ovenfor nævnte tabel fra side 10 i Undervisningsministeriets
rapport fra februar 2016 (se side 4 i .
Alt materiale og video ligger på .
et notat fra 2016 (pdf)
notatet: De nationale tests
måleegenskaber (pdf)
Læs mere i vores undersøgelser om nationale test
Jeppe Bundsgaards præsentation (pdf)
Folketingets hjemmeside
UNDERVISNINGS
MINISTERIET
2018-19
S 744 endeligt svar
Offentligt
8.4.2019 Fakta om nationale test - Undervisningsministeriet
https://www.uvm.dk/aktuelt/nyheder/uvm/2019/apr/190403-fakta-om-nationale-test 2/3
Grundig evaluering
Undervisningsministeren har i januar 2018 sat en grundig evaluering af de nationale test i gang. Evalueringen skal skabe et
solidt og kvalificeret grundlag for at tage stilling til den fremadrettede udvikling og brug af de nationale test. Både i
forberedelsen af evalueringen, under og efter bliver relevante eksperter, interessenter og praktikere inviteret til at bidrage.
Inddragelsen skal sikre, at evalueringen tager højde for både kritik, udfordringer, ønsker og behov i forhold til de nationale
test.
8.4.2019 Fakta om nationale test - Undervisningsministeriet
https://www.uvm.dk/aktuelt/nyheder/uvm/2019/apr/190403-fakta-om-nationale-test 3/3
Kontakt
Pressetelefon
Undervisningsministeriet
(Du kan ikke sende sms til pressetelefonen)
22 40 09 30

Bilag 3- Damvad rapport om PISA-sammenhæng.pdf

https://www.ft.dk/samling/20181/spoergsmaal/S744/svar/1573649/2044439.pdf

05/09/14
PISA-relatering af de kriterie-
baserede nationale test
Delrapport 1 – formidling af resultater
2018-19
S 744 endeligt svar
Offentligt
2 PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM
For information on obtaining additional copies, permission
to reprint or translate this work, and all other correspondence,
please contact:
DAMVAD
info@damvad.com
damvad.com
Copyright 2014
PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM 3
1 Indledning og sammenfatning 4
1.1 Hovedkonklusioner 5
1.2 Læsevejledning 6
2 Sammenhænge i de nationale test og til PISA-undersøgelserne 7
2.1 Indplacering af elever ud fra den normbaserede og den kriteriebaserede skala 7
2.2 Sammenhængen mellem kriteriebaserede nationale test og niveauer i PISA-
undersøgelserne 9
2.3 Sammenhængen mellem PISA-resultater og de forskellige profilområder 11
2.4 Opsamling 12
3 Betydningen af baggrundsvariable 13
3.1 Baggrundsvariables gennemsnitlige betydning for nationale test og PISA 13
3.2 Baggrundsvariables rolle i forudsigelse 14
3.3 Opsamling 15
4 Forudsigelse af PISA-resultater på baggrund af de nationale test 16
4.1 Den statistisk baserede model 16
4.2 Sammenhæng mellem PISA-resultater og de nationale test 17
4.3 Eksempler på modellens forudsigelser 17
4.4 Forudsigelser på baggrund af en samlet kriteriebaseret kategorisering 20
4.5 Opsamling 21
Indhold
4 PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM
Undervisningsministeriet har for at styrke opfølgnin-
gen af de faglige mål i aftalen om den seneste fol-
keskolereform, “Et fagligt løft af folkeskolen”, igang-
sat et arbejde med at kriteriebasere de nationale
test. Da de nationale test første gang blev indført i
2010, var tilbagemeldingerne af testresultaterne
normbaserede og derfor uden faste kriterier for,
hvornår en elevs resultater i et givent fag på et gi-
vent klassetrin var tilfredsstillende. I stedet blev re-
sultaterne for den enkelte elev sammenlignet med
andre elevers resultater, opgjort som landsgennem-
snittet i 2010.
I “Et fagligt løft af folkeskolen” er der formuleret en
række konkrete faglige mål for folkeskolen. Målene
er bl.a., at mindst 80 pct. af eleverne skal være gode
til at læse og regne i de nationale test, og at andelen
af de allerdygtigste elever i dansk og matematik skal
stige år for år. Derudover skal andelen af elever
med dårlige resultater i de nationale test for læsning
og matematik reduceres år for år. For at der kan føl-
ges op på disse nationale mål, kriteriebaseres de
nationale test, så der fremover også er en fast skala,
der indikerer om en elevs resultater er gode eller
dårlige på baggrund af fagligt fastsatte kriterier.
Arbejdsgrupper af personer med faglig indsigt i de
enkelte testfag (opgavekommissionerne) har i før-
ste halvdel af 2014 formuleret en række foreløbige
kriterier for at vurdere den enkelte elevs resultater i
de nationale test. På baggrund af kriterierne indde-
les elevernes testresultater i en række kategorier,
der spænder fra utilstrækkelig til fremragende. På
tidspunktet for afrapporteringen er de foreløbige kri-
terier ved at blive pilotafprøvet.
Den nærværende undersøgelse skal ses i sammen-
hæng med, at der ud over de nationale test samtidig
gennemføres PISA-undersøgelser i Danmark, der
også indeholder kategoriseringer af elevernes fag-
lige niveau. I forbindelse med dette projekt er der
derfor blevet lagt vægt på at undersøge sammen-
hængen mellem de foreløbige kriteriebaserede ka-
tegorier og PISAs kategorier.
Det overordnede formål med projektet er at opstille
en sandsynlighedsbaseret model for at relatere re-
sultaterne i de nationale test til resultaterne i PISA-
undersøgelsen fra 2012. Undersøgelsens formål er
nærmere beskrevet i boks 1.1 nedenfor.
Undersøgelsen tager dermed sit udgangspunkt i de
foreløbige kriterier for vurdering af elevers præstati-
oner i de nationale test og sammenholder dem med
resultaterne i PISA-undersøgelsen fra 2012.
Boks 1.1 Formålet med opgaven
Formålet med opgaven er at klarlægge, hvorvidt resultater i de
nationale test kan relateres til PISA-resultater. Målsætningen
med afdækningen er således at udarbejde:
 En sandsynlighedsbaseret model for relateringen af re-
sultater i de nationale test på test- og profilområdeniveau
til PISA. Testniveauer, som skal inddrages, er:
o matematik (herunder profilområderne: (1) tal og al-
gebra, (2) geometri og (3) matematik i anvendelse)
o læsning (herunder profilområderne: (1) sprogforstå-
else, (2) afkodning og (3) tekstforståelse)
 Relatering af de kriteriebaserede kategorier i de nationale
test med kategorier i PISA
Derudover ønskes det afdækket:
o hvor stort et sammenfald, der er blandt elever, der
ikke har deltaget i de nationale test og PISA.
o eventuelt hvorvidt de socioøkonomiske effekter er
ens i de nationale test og PISA.
Kilde: Kvalitets- og Tilsynsstyrelsen 2014
Grundet undersøgelsens tekniske natur afrapporte-
res den i to delrapporter: Delrapport 1 – formidling
af resultater og Delrapport 2 – teknisk rapport og
dokumentation. Hvor Delrapport 2 fokuserer på op-
stillingen af den statistiske model og metodiske og
datamæssige udfordringer i den forbindelse, afrap-
porterer vi i denne rapport (Delrapport 1) resulta-
terne af tre spørgsmål:
1 Indledning og sammenfatning
PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM 5
1. Er der en sammenhæng mellem resulta-
terne i de nationale test og resultaterne i
PISA-undersøgelsen, og hvordan ser
denne sammenhæng i givet fald ud?
2. Hvilken rolle spiller baggrundsvariable som
elevens køn, herkomst og socioøkonomi-
ske status samt sen eller normal skolestart
for evnen til at forudsige testresultaterne?
3. Kan vi – og i så fald hvordan – fremover for-
udsige PISA-undersøgelserne på baggrund
af de nationale test?
Undersøgelsen er gennemført for Kvalitets- og Til-
synsstyrelsen i et samarbejde mellem DAMVAD og
professor emeritus ved Københavns Universitet,
cand.stat. Svend Kreiner.
1.1 Hovedkonklusioner
Nedenfor opsummeres analysens hovedkonklusio-
ner:
1. Der er en tydelig sammenhæng mellem resul-
taterne fra de nationale test og resultaterne fra
PISA-undersøgelserne. Sammenhængen kan
observeres på tværs af profilområder i både læs-
ning og matematik, men er ikke nødvendigvis
jævnt fordelt.
Analyserne viser, at der er en statistisk robust sam-
menhæng mellem, hvordan eleverne klarer sig i de
nationale test, og hvordan eleverne klarer sig i
PISA-undersøgelserne. Dette betyder, at der er en
høj grad af overensstemmelse imellem, hvilke kate-
gorier eleverne indplaceres i i henholdsvis de natio-
nale test og PISA. Elever, der indplaceres i de la-
vere kategorier i de nationale test som utilstrækkelig
og mangelfuld, vil som regel også være indplaceret
i de laveste kategorier i PISA-undersøgelserne,
hhv. under 1b, 1a, 1 og 2. Sammenhængen mellem
resultaterne fra de nationale test og PISA-undersø-
gelserne er især stærk for elever, der klarer sig min-
dre godt.
I de nationale test måles elevernes niveau i læsning
og matematik ud fra tre såkaldte profilområder in-
den for begge testfag. Analysen viser, at elevernes
præstationer i PISA-undersøgelsen for læsning
stemmer bedst overens med præstationerne inden
for “tekstforståelse” i de nationale test. Når det kom-
mer til matematik, er sammenhængen mellem
PISA-undersøgelsen og profilområderne “tal og al-
gebra”, “geometri” og “matematik i anvendelse”
mere jævnt fordelt med en svag overvægt for “ma-
tematik i anvendelse”.
Den tydelige sammenhæng mellem resultaterne fra
de nationale test og PISA betyder samtidig, at de to
test uafhængigt af hinanden når til relativt ensly-
dende vurderinger af elevers faglige niveauer. Det
er en bekræftelse af, at de nationale test siger noget
relevant om elevernes faglige niveau i de områder,
hvori de testes.
2. Køn, herkomst og socioøkonomisk status samt
sen eller normal skolestart har betydning for re-
sultaterne i de nationale test og i PISA-undersø-
gelserne. Endvidere bliver forudsigelserne af re-
sultaterne i PISA-undersøgelserne mere præ-
cise, hvis man tager højde for oplysninger om ele-
vens baggrund.
Oplysninger om elevens baggrund som køn, her-
komst og socioøkonomisk status samt sen eller nor-
mal skolestart har en betydning for resultaterne i de
nationale test og i PISA-undersøgelserne. Generelt
påvirker baggrundsvariablene elevernes gennem-
snitlige resultater på samme måde i de to test.
F.eks. opnår piger i gennemsnit bedre testresultater
i læsning, mens drenge i gennemsnit opnår bedre
testresultater i matematik i begge testsystemer. Det
gælder dog, at nationale test foretages på et be-
stemt klassetrin, hvorimod PISA-undersøgelserne
er rettet mod 15-16-årige elever uanset klassetrin.
Dette betyder, at en sen eller normal skolestart sær-
6 PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM
ligt får betydning for resultatet af PISA-undersøgel-
serne, idet elever med en sen skolestart har haft et
års mindre skolegang.
Beregninger foretaget i Delrapport 2 viser samtidig,
at de baggrundsvariable, der er nævnt ovenfor,
også har en selvstændig betydning, når vi forsøger
at forudsige PISA-resultatet på baggrund af elevens
præstationer i de nationale test. Dette gælder sær-
ligt køn, herkomst samt sen eller normal skolestart.
Med andre ord hænger PISA-resultatet i læsning og
matematik ikke kun sammen med elevernes resul-
tater i de nationale test, men påvirkes også selv-
stændigt af de nævnte baggrundsvariable.
3. Der kan fremover foretages en statistisk base-
ret forudsigelse af, hvad en given elev vil score i
en PISA-undersøgelse på baggrund af vedkom-
mendes resultater fra den nationale test. Forudsi-
gelser bygger på den statistiske model, der er op-
stillet i projektet og tager også højde for oplysnin-
ger om elevens baggrund1.
Det er muligt på baggrund af en given elevs præsta-
tion i de nationale test at komme med en statistisk
baseret forudsigelse af, hvordan vedkommende vil
klare sig i en PISA-undersøgelse. På baggrund af
resultaterne fra et enkelt profilområde inddelt i kate-
gorier kan de gennemsnitlige PISA-resultater (med
begrænset præcision) forudsiges. Man kan ligele-
des (med langt højere præcision) forudsige resulta-
terne i læsning og matematik ved at foretage en
række beregninger på baggrund af matematiske
modeller, der viser sammenhængen mellem de to
test, ved at benytte baggrundsvariablene, køn, her-
komst samt sen eller normal skolestart.
1
Det bør for en god ordens skyld tilføjes, at da formålet med PISA-under-
søgelserne alene er at måle resultaterne for større grupper af elever, skal
forudsigelserne kun anvendes på aggregeret niveau, som f.eks. landeni-
Hvis vi f.eks. tager udgangspunkt i en dreng af
dansk herkomst med normal skolestart, kan der på
baggrund af disse oplysninger og hans resultater fra
den nationale test foretages en statistisk baseret
forudsigelse. Forestiller vi os, at hans testresultater
i læsning i 8. klasse kan kategoriseres som god i
“sprogforståelse”, god i “afkodning” og jævn i “tekst-
forståelse”, vil forudsigelsen være, at han i en se-
nere PISA-undersøgelse vil score omkring 465.
Dette er lidt under middel i forhold til PISAs katego-
riseringer.
1.2 Læsevejledning
Den resterende del af rapporten er disponeret efter
de tre hovedspørgsmål i analysen.
I kapitel 2 viser vi, at der en sammenhæng mellem
de nationale test og PISA-undersøgelserne, og gen-
nemgår, hvordan denne ser ud.
I kapitel 3 viser vi, hvilken rolle baggrundsvariable
som køn, herkomst og socioøkonomisk status mv.
og sen eller almindelig skolestart spiller for evnen til
at forudsige testresultaterne.
I kapitel 4 viser vi, hvordan vi kan forudsige PISA-
undersøgelserne på baggrund af de nationale test.
veau, og ikke for enkelte elever. Derudover gælder det, at den bagvedlig-
gende statistiske model ikke kan anvendes til sammenligninger med andre
lande, blandt andet på grund af mangel på sammenlignelige data.
PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM 7
I det følgende kapitel sammenlignes først indplace-
ringen af eleverne ud fra de nationale test, når man
anvender de nye foreløbige kriterier med indplace-
ringen af eleverne i forhold til de gamle normbase-
rede mål. Dernæst vises, hvordan de kriteriebase-
rede indplaceringer af elever relaterer sig til PISAs
kategoriseringer. Dette gøres ved at se på, hvordan
elever konkret har klaret sig i hver af de to test. En-
delig vises sammenhængen mellem de forskellige
profilområder inden for læsning og matematik (med
og uden de kriteriebaserede resultater) og de tilsva-
rende PISA-undersøgelser.
2.1 Indplacering af elever ud fra den normba-
serede og den kriteriebaserede skala
Som nævnt indledningsvis, er der tidligere i år
(2014) blevet formuleret en række foreløbige krite-
rier for præstationerne i de nationale test. Som det
fremgår af tabel 2.1 og tabel 2.2, der viser resulta-
terne for henholdsvis “tekstforståelse” og “matema-
tik i anvendelse”, er der en fin sammenhæng mel-
lem den nye kriteriebaserede og den gamle norm-
baserede skala. Samtidig viser tabellerne, at de kri-
teriebaserede resultater er velegnede til at sondre
mellem de fagligt stærkeste og de fagligt svageste
elever. Dette betyder, at de nye kriteriebaserede ka-
tegorier styrker mulighederne for at differentiere
mellem forskellige grupper af særligt dygtige og
særligt svage elever.
For “tekstforståelse” i 8. klasse (tabel 2.1) fordeles
elever, som scorer blandt de laveste 10 pct. på den
normbaserede skala, f.eks. i de tre laveste kriterie-
baserede kategorier fra utilstrækkelig til jævn, med
hovedparten i kategorien mangelfuld. For midter-
gruppen, der er mellem 35 og 65 pct. på den norm-
baserede skala, gælder det, at samtlige elever ind-
placeres i den kriteriebaserede kategori god. Blandt
de 10 pct. bedste elever på den normbaserede
skala indplacerer knap 80 pct. sig i kategorien rigtig
god, mens de resterende godt 20 pct. er i kategorien
fremragende.
For matematik i 6. klasse er der ligeledes en god
sammenhæng mellem placeringen i kriteriebase-
rede kategorier og elevernes resultater på den
normbaserede skala. Det vises for profilområdet
”matematik i anvendelse” i tabel 2.2.
2 Sammenhænge i de nationale test og til PISA-
undersøgelserne
TABEL 2.1
Profilområde “tekstforståelse” i 8. klasse
Kriteriebaseret skala
Interval, normbaseret skala
Utilstrækkelig Mangelfuld Jævn God Rigtig god Fremragende Total
Op til 10 pct. 14,3 61,9 23,8 - - - 100
10 - 35 pct. - - 73,0 27,0 - - 100
35 - 65 pct. - - - 100,0 - - 100
65 - 90 pct. - - - 49,1 50,9 - 100
90 pct. og derover - - - - 78,3 21,7 100
Samlet fordeling 1,6 6,7 21,7 46,3 21,4 2,3 100
Kilde: Delrapport 2 – teknisk rapport og dokumentation.
Note: Antal elever=7.112
Note: Kun elever, der både har deltaget i de nationale test og i PISA-undersøgelsen, indgår i opgørelsen
8 PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM
Elever indplaceret i de forskellige normbaserede in-
tervaller placeres i to kriteriebaserede kategorier.
Blandt de svageste 10 pct. af eleverne placeres om-
kring 2/3 af eleverne i mangelfuld, mens godt 1/3
placeres i utilstrækkelig. For gruppen fra 10 til 35
pct. er der ligeledes ca. 2/3 i mangelfuld, mens godt
1/3 placeres i jævn. Sammenlignet med “tekstfor-
ståelse” i 8. klasse (tabel 2.1) er der således en ten-
dens til, at eleverne i højere grad koncentreres i ka-
tegorierne mangelfuld og god, mens jævn fanger
ca. 20 pct. af eleverne.
Afsnittet har dermed vist, at den normbaserede og
den kriteriebaserede skala hænger fint sammen, og
at de nye foreløbige kriteriebaserede kategorier er
bedre til at nuancere forskelle blandt de svageste
og stærkeste elever. De næste afsnit ser nærmere
på sammenhængen mellem elevernes præstationer
målt på den kriteriebaserede skala og PISA.
Boks 2.1 De nationale test
De nationale test (DNT) er it-baserede adaptive test, der si-
den 2010 årligt er blevet afholdt i folkeskolen. Der er tale
om i alt 10 obligatoriske test fordelt på fagene dansk (læs-
ning), matematik, engelsk, geografi, biologi og fysik/kemi.
Der testes i læsning på 2., 4., 6. og 8. klassetrin og i mate-
matik på 3. og 6. klassetrin.
Testenes funktion er først og fremmest at understøtte læ-
rernes løbende evaluering af elevernes faglige niveau og
derfor give en indikator på elevernes faglige niveau inden
for hvert af de delområder, som hver test afdækker. Disse
delområder kaldes profilområder. Hver af de nationale test
består af tre profilområder. Eksempelvis er profilområ-
derne i læsning sprogforståelse , afkod i g og tekst-
forståelse . I matematik er de tal og algebra , geo etri
og mamatik i anvendelse .
Med den seneste folkeskolereform er det blevet besluttet,
at resultaterne af de nationale test fremover skal gøres kri-
teriebaserede. Det betyder, at de nationale test ikke læn-
gere skal opgøres i forhold til landsgennemsnittet, men i
forhold til fastlagte kriterier for, hvornår en elev f.eks. er
god til geometri. Fremover vil elevernes præstationer in-
den for hvert profilområde derfor kunne kategoriers som
enten utilstrækkelig, mangelfuld, jævn, god, rigtig god eller
fremragende.
TABEL 2.2
Profilområde “matematik i anvendelse” i 6. klasse
Kriteriebaseret skala
Interval, normbaseret skala
Utilstrækkelig Mangelfuld Jævn God Rigtig god Fremragende Total
op til 10 pct. 34,5 65,5 - - - - 100
10 - 35 pct. - 63,9 36,1 - - - 100
35 - 65 pct. - - 28,8 71,2 - - 100
65 - 90 pct. - - - 97,7 2,3 - 100
90 pct. og derover - - - - 86,2 13,8 100
Samlet fordeling 5,6 32,5 19,5 35,4 6,1 0,9 100
Kilde: Delrapport 2 – teknisk rapport og dokumentation.
Note: Antal elever=1.420
PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM 9
2.2 Sammenhængen mellem kriteriebaserede
nationale test og niveauer i PISA-under-
søgelserne
Ud over de nationale test testes danske elever også
i regi af OECD i de såkaldte PISA-undersøgelser. I
dette afsnit belyses sammenhængen mellem de kri-
teriebaserede nationale test og PISA-undersøgel-
sen fra 2012.
I PISA-undersøgelserne opdeles eleverne i ni-
veauer fra 1 til 6 baseret på baggrund af det opnå-
ede PISA-resultat. Der anvendes forskellige skæ-
ringspunkter af niveauerne for matematik og læs-
ning, ligesom der er forskellige niveauer i bunden af
skalaen (f.eks. er niveau 1 opdelt i flere underni-
veauer for læsning). PISA-undersøgelsen er nær-
mere beskrevet i boks 2.2.
Boks 2.2 PISA-undersøgelsen
PISA er en verdensomspændende undersøgelse af kompe-
tencer i matematik, læsning og naturfag. Testene udføres i
OECD-regi med en række ikke-OECD-lande som samar-
bejdspartnere. Første test var i år 2000, og de foretages
hvert tredje år på 15-16-årige, der fortsat går i skole. Sene-
ste test er udført i år 2012. Resultaterne opgøres i PISA-
rapporterne på nationale niveauer og ikke på elev-, skole-
eller regionalt niveau.
Et resultat af en PISA-undersøgelse rapporteres typisk som
en såkaldt PISA-score, der spænder i intervallet fra 0 til
1000. Gennemsnittet i OECD er derfor omkring (men ikke
nødvendigvis lig) 500 for alle de tre testområder. PISA-sco-
ren er beregnet ud fra værdier fra den Rasch-model, der
ligger bag ved testene (se boks 4.1). Som en følge af denne
statistiske model vil elevernes resultater koncentrere sig
om de midterste værdier. Der er eksempelvis langt flere
elever, der scorer mellem 400 og 500, end elever, der sco-
rer mellem 600 og 700.
Denne PISA-score kan oversættes til nogle på forhånd fast-
satte kategorier i intervallet fra 1 til 6, evt. med underop-
delinger af kategori 1 i 1b og 1a i læsning. Kriterierne for,
hvilken PISA-score det kræver at opnå en bestemt kategori,
varierer lidt fra område til område. Eksempelvis kræver det
i PISA 2012 en score på 607 i matematik og 626 i læsning at
opnå et elevresultat i kategori 5, og 669 i matematik og 698
i læsning for at opnå kategori 6. Kategori 5 og 6 benævnes
af PISA so top-perfor ers . PISA beteg er kategori 2
som et baseline-niveau for, hvad der skal til for at deltage
effektivt og produktivt i livet . For at nå dette niveau skal
eleven have scoren 420 i matematik og 407 i læsning.
TABEL 2.3
Profilområdet “tekstforståelse” i 8. klasse i 2011–2012 sammenholdt med PISAs læseresultater fra 2012
PISA-kategori
Kriteriebaseret skala, DNT
<1b 1b 1a 2 3 4 5 6 Total
Utilstrækkelig 10,5 26,3 26,3 28,9 5,3 2,6 - - 100
Mangelfuld 4,5 17,9 35,0 34,6 6,9 1,2 - - 100
Jævn 2,4 6,2 25,4 39,9 23,2 2,6 0,2 - 100
God 0,3 1,4 8,5 32,5 37,8 14,6 4,7 0,1 100
Rigtig god 0,1 0,2 1,5 12,1 36,1 38,2 10,3 1,4 100
Fremragende - - 1,0 3,1 15,6 47,9 31,3 1,0 100
Samlet fordeling 1,0 3,3 11,9 28,9 31,8 17,3 5,3 0,4 100
Kilde: Delrapport 2 – teknisk rapport og dokumentation.
Note: Antal elever=4.156
Note: Elever under niveau 2 har i PISA-undersøgelsens terminologi “utilstrækkelige læsefærdigheder”
10 PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM
I tabel 2.3 ses, at der er en stærk sammenhæng
mellem placeringen i de kriteriebaserede kategorier
i de nationale test for profilområdet “tekstforståelse”
og placeringen i kategorierne for resultaterne af
PISA-undersøgelsens læsetest. Da tendensen er
den samme for alle tre profilområder, præsenteres
her kun en tabel for “tekstforståelse”, som har den
stærkeste korrelation med PISA. Tabeller for de re-
sterende profilområder findes i Delrapport 2.
Tabel 2.3. viser, at elever, som får den kriteriebase-
rede score utilstrækkelig, fordeler sig i PISA-niveau-
erne fra under 1b til 4, dog ligger størstedelen i 1b
til 2. Det samme mønster gør sig gældende for ele-
ver som får placeringen mangelfuld, hvor der dog er
en større koncentration af eleverne, som placeres i
PISA-niveauerne 1a og 2, og færre i de laveste ka-
tegorier (1b og derunder).
Elever, der placeres i kategorien rigtig god ud fra de
kriteriebaserede nationale test indplaceres over
hele spektret i PISA-niveauerne, men med en klar
hovedvægt i kategorierne 3 og 4 i den efterfølgende
PISA-test i læsning. Overordnet set viser tabel 2.3
dog stadig den fine sammenhæng, at de elever,
som bliver placeret i de lave kategorier i de natio-
nale test, også indplaceres i de lavere kategorier i
PISA.
Der kan være flere årsager til, at nogle elever scorer
meget lavere – eller højere – i den efterfølgende
PISA-undersøgelse i læsning, end indplaceringen
på den kriteriebaserede skala ved den nationale
test tilsagde. For det første kan det skyldes reelle
bevægelser i elevernes faglige niveau, fordi der er
en vis tidsforskel mellem gennemførsel af de to test.
For det andet kan det skyldes forskelle i, hvad og
hvordan der måles i de to test. Endelig er det vel-
kendt, at elever nogle gang har en 'dårlig dag' på
testningstidspunktet, og at testresultatet derfor ikke
afspejler elevens egentlige faglige niveau.
Det er i den sammenhæng betryggende, at der er
så relativt få elever, som scorer 'helt ved siden af'.
Det indikerer, at de to første forklaringsmuligheder
formentligt ikke skal tillægges for meget vægt. Dette
er vigtigt for muligheden for at forudsige et fremtidigt
PISA-resultat på baggrund af resultaterne fra de na-
tionale test, som vi vil se nærmere på i kapitel 4.
TABEL 2.4
“Matematik i anvendelse” fra sene skolestartere 6. klasse i 2010 og PISAs matematikresultater for 2012
PISA-kategori
Kriteriebaseret skala, DNT
1 2 3 4 5 6 Total
Utilstrækkelig 85,4 7,3 2,4 4,9 - - 100
Mangelfuld 56,4 31,8 9,4 2,4 - - 100
Jævn 35,8 32,8 25,9 5,5 - - 100
God 20,2 34,1 27,7 16,0 2,0 - 100
Rigtig god 7,9 14,5 28,9 28,9 19,7 - 100
Fremragende 10,0 10,0 - 30,0 40,0 10,0 100
Samlet fordeling 35,9 30,5 20,5 10,4 2,5 0,1 100
Kilde: Delrapport 2 – teknisk rapport og dokumentation.
Note: Antal elever=1.063. Niveau under 1 findes ikke matematik-testen.
PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM 11
Der er den samme tendens mellem placeringen på
den kriteriebaserede kategorisering af den natio-
nale test i matematik i 6. klasse og PISAs matema-
tiktest i 2012, som der var for læseområdet. I tabel
2.4 ses sammenhængen for profilområdet “mate-
matik i anvendelse”.
2.3 Sammenhængen mellem PISA-resultater
og de forskellige profilområder
De nationale test i henholdsvis matematik og læs-
ning består af hver tre profilområder, der måles for
at vurdere elevernes præstation. Af pladshensyn vi-
ste det ovenstående afsnit alene resultaterne for det
profilområde med den stærkeste sammenhæng til
PISA-resultatet. I dette afsnit illustreres sammen-
hængen mellem hvert enkelt af de tre profilområder
og det tilsvarende PISA-resultat i henholdsvis læs-
ning og matematik.
Sammenhængen illustreres ved hjælp af såkaldte
korrelationskoefficienter, der på en skala fra 0 (in-
gen sammenhæng) til 1 (perfekt lineær sammen-
hæng) viser, hvor stor sammenhæng der er mellem
profilområderne og det tilsvarende PISA-resultat. Jo
højere korrelationskoefficienten er, desto større er
sammenhængen.
Det fremgår af tabel 2.5, at der er en stærkere sam-
menhæng mellem profilområdet “tekstforståelse” og
PISAs læsetest, end der er for de to andre profilom-
råder, “sprogforståelse” og “afkodning”. Endvidere
ses, at “tekstforståelse” også er mere korreleret
med de to andre profilområder, end disse to er med
hinanden. Dette resultat understøtter, at der er en
konsistent sammenhæng mellem målingen af profil-
områder i de nationale test og resultaterne i PISA-
undersøgelsen.
TABEL 2.5
Korrelation mellem værdier fra Rasch-modellen på
profilområder i de nationale test og PISA-undersø-
gelsen for læsning
Sprog-
forståelse
Afkod-
ning
Tekst-
forståelse
PISA
læsning
Sprog-
forståelse
1 0,55 0,61 0,46
Afkodning 1 0,62 0,49
Tekst-
forståelse
1 0,62
PISA
læsning
1
Kilde: Delrapport 2 – teknisk rapport og dokumentation.
Note: Alle korrelationer er statistisk signifikante på et 1 pct. niveau. 7.118
elever har resultater for DNT og 5.156 for PISA. Af disse har 4.162 resul-
tater for begge test.
For matematik har profilområderne en lidt højere
indbyrdes korrelation. Korrelationen til PISA er af
nogenlunde samme styrke som for læsning, men
korrelationerne er mere ensartede. Det fremgår af
tabel 2.6, at “matematik i anvendelse” har den stør-
ste korrelation til såvel de andre profilområder som
til PISA-undersøgelsen. Dette billede er altså tilsva-
rende, hvad vi så for læsning.
TABEL 2.6
Korrelation mellem værdier fra Rasch-modellen på
profilområder i de nationale test og PISA-undersø-
gelsen for matematik.
Tal og
algebra
Geo-
metri
Matematik i
anvendelse
PISA ma-
tematik
Tal og
algebra
1 0,58 0,67 0,48
Geometri 1 0,62 0,51
Matematik i
anvendelse
1 0,55
PISA
matematik
1
Kilde: Delrapport 2 – teknisk rapport og dokumentation.
Note: Alle korrelationer er statistisk signifikante på et 1 pct. niveau. 1.420
elever har resultater for DNT og 7.441 for PISA. Af disse har 1.063 resul-
tater for begge test. Den store forskel skyldes, at det alene er sene skole-
startere, der har DNT-data i matematik. Se i Delrapport 2 for uddybning.
12 PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM
2.4 Opsamling
Dette kapitel har vist, er der en tydelig sammen-
hæng mellem resultaterne fra de nationale test og
PISA-undersøgelserne. Sammenhængen kan ob-
serveres på tværs af profilområder i både læsning
og matematik, men er dog generelt set lidt stærkere
i matematik. I det følgende kapitel ses nærmere på,
hvilken betydning baggrundsvariable som køn, her-
komst, socioøkonomisk status og sen eller normal
skolestart har for resultaterne i de nationale test og
PISA-undersøgelserne.
PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM 13
Dette kapitel ser nærmere på, hvilken betydning op-
lysninger om elevens baggrund har for resultaterne
i de nationale test og i PISA-undersøgelsen. Her-
med får vi en indikation af, hvorvidt baggrundsvari-
able som køn, herkomst, sen eller normal skolestart
samt socioøkonomisk status kan bruges til at forud-
sige PISA-resultatet på baggrund af resultaterne i
de nationale test.
3.1 Baggrundsvariables gennemsnitlige be-
tydning for nationale test og PISA
Det er velkendt, at både køn, herkomst, socioøko-
nomisk status samt sen eller normal skolestart har
en betydning for elevernes præstationer i folkesko-
len. Derfor er det ingen overraskelse, at dette også
ses i resultaterne fra de nationale test og PISA-un-
dersøgelserne. Tabel 3.1 viser de gennemsnitlige
PISA-resultater fordelt på ovennævnte baggrunds-
variable set i forhold til det samlede gennemsnit for
de danske elever i testen. Som det fremgår af tabel-
len, er der en tendens til, at drenge klarer sig lidt
bedre end piger til matematik, mens piger i gennem-
snit klarer sig bedre i læsning.
Det ses endvidere, at elever af dansk herkomst i
gennemsnit klarer sig en del bedre end elever med
en anden herkomst både i matematik og læsning.
Sene skolestartere, som er testet et klassetrin la-
vere end normale skolestartere i PISA-undersøgel-
serne, klarer sig ligeledes dårligere.
Som mål for socioøkonomisk status er anvendt PI-
SAs ESCS, der er et samlet indeks for socioøkono-
misk status, som tager udgangspunkt i forældres
uddannelse, beskæftigelse og et mål for besiddel-
ser i hjemmet (økonomiske som kulturelle faktorer).2
I tabel 3.1 vises de gennemsnitlige PISA-resultater
2
Se PISA Results 2012: ”What Students Know and Can Do” (OECD,
2014).
for de børn, som ligger blandt de øverste 20 pct., de
midterste 20 pct. og de nederste 20 pct. på dette
ESCS-indeks. Ikke overraskende ses det, at jo hø-
jere socioøkonomisk status en elev har, desto bedre
klarer vedkommende sig i PISA-undersøgelserne.
Effekten af socioøkonomisk status er ganske bety-
delig.
TABEL 3.1
Effekt af baggrundsvariable på gennemsnitlige re-
sultater i PISA-undersøgelserne
PISA
matematik
PISA
læsning
Gennemsnitlig PISA-score i
datasættet
489 487
Køn
Dreng 494 476
Pige 484 498
Herkomst
Dansk herkomst 506 503
Anden herkomst 442 442
Skole-
start
Sen 451 443
Normal 498 497
Socio-
økono-
misk sta-
tus
(PISA-
ESCS)
Høj
(øverste 20 pct.)
532 527
Middel
(midterste 20
pct.)
494 492
Lav
(nederste 20 pct.)
449 447
Kilde: Delrapport 2 – teknisk rapport og dokumentation
Note: Kun elever, der både har deltaget i de nationale test og i PISA-un-
dersøgelsen, indgår i opgørelsen
Note: Data om socio-økonomisk status stammer fra PISA (ESCS).
Et tilsvarende mønster kan genfindes i resultaterne
for de nationale test. Af tabel 3.2 fremgår, at retnin-
gen for de forskellige baggrundsvariable er den
samme som i PISA-undersøgelserne: Drenge har
generelt bedre resultater på de tre matematiske pro-
filområder, piger på to af de tre profilområder for
3 Betydningen af baggrundsvariable
14 PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM
læsning, ligesom elever af dansk herkomst generelt
har bedre resultater end de af anden herkomst osv.
3.2 Baggrundsvariables rolle i forudsigelse
Som det fremgik af forrige afsnit, har baggrundsva-
riablene stor betydning for såvel resultaterne i PISA-
undersøgelserne som resultaterne i de nationale
test. Et oplagt spørgsmål er derfor, om variablene
påvirker resultaterne lige kraftigt? Dette har en stor
betydning for, hvordan en statistisk baseret forudsi-
gelsesmodel, der relaterer resultater fra de natio-
nale test til PISA-resultaterne, skal tage sig ud.
Er effekten helt ensartet i de to test, vil baggrunds-
variablene ikke bidrage med yderlige forklarings-
kraft, når PISA-resultaterne skal forudsiges ved
TABEL 3.2
Betydningen af baggrundsvariable i de nationale test illustreret ved det gennemsnitlige resultat på hvert
profilområde for forskellige grupper af elever
-------- Matematik ---------- --------- Læsning --------
Profilområde
Gennemsnit for:
Antal
elever
Tal og
algebra
Geometri
Matematik i
anvendelse
Antal
elever
Tekst-
forståelse
Sprog-
forståelse
Afkod-
ning
De nationale test
(i det anvendte data)
1.420 15,0 15,6 14,1 7.118 26,6 15,7 24,5
Køn*
Dreng 670 16,0 16,3 15,0 3.038 26,7 16,2 24,8
Pige 399 14,7 15,4 13,7 3.029 27,7 15,8 25,1
Herkomst
Dansk herkomst 687 16,1 16,8 15,2 4.459 28,6 16,8 25,7
Anden herkomst 382 14,4 14,3 13,3 1.608 23,5 13,8 23,0
Skolestart
Sen - - - 1.508 24,2 14,5 23,1
Normal - - - 5.610 27,3 16,0 24,9
Socioøkonomisk status
(målt ved PISA ESCS)
Høj (top 20 pct.) 106 17,3 18,5 16,3 1.093 31,0 18,0 26,5
Middel (20 pct.) 188 16,0 16,1 14,9 1.210 27,3 16,2 25,1
Lav (bund 20 pct.) 311 14,2 14,8 13,2 1.224 23,9 13,8 23,4
Kilde: Delrapport 2 – teknisk rapport og dokumentation.
Note: *Da der mangler oplysninger om køn, herkomst, skolestart og socioøkonomisk status for en række elever, indgår disse ikke i beregningen af
gennemsnitsresultatet fordelt på disse baggrundsvariable. De indgår dog i beregningen af det samlede gennemsnitlige resultat. For opdelingen på køn
betyder det, at det gennemsnitlige resultat for såvel drenge som piger er højere end landsgennemsnittet. Samme problem gør sig gældende for herkomst,
skolestart og socioøkonomisk status, men problemet er ikke på samme måde tydeligt for disse variable, da det samlede gennemsnit falder mellem de to
gennemsnit for baggrundsvariablene.
Note: De gennemsnitlige kriteriebaserede scorer for matematik bygger alle på resultater for elever med sen skolestart. Det følger heraf, at cellerne for
matematik med normal og sen skolestart er tomme (og gennemsnittet for de med sen skolestart er det fra de nationale test i øverste række).
PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM 15
hjælp af de nationale test. Er effekten derimod for-
skellig, vil baggrundsvariablene bidrage til forudsi-
gelsen af PISA-resultaterne, ud over hvad resulta-
terne i de nationale test kan forklare. Som det frem-
går af det følgende kapitel, er baggrundsvariablene
vigtige, for at den statistiske model så præcist som
muligt kan forudsige et PISA-resultat på baggrund
af resultaterne i de nationale test.
Dette kan grundlæggende skyldes to forhold: 1) at
baggrundsvariablene af forskellige årsager påvirker
resultaterne i de nationale test mere eller mindre
end resultaterne i PISA-undersøgelserne, og/eller
2) at baggrundsvariablene påvirker den faglige ud-
vikling, der er sket for eleven, fra de nationale test
er gennemført, til at PISA-undersøgelserne foreta-
ges – altså med andre ord forskelle i, hvor stort ud-
bytte der opnås af skolegangen, imellem de to test
foretages. Med det nuværende datagrundlag er det
ikke muligt at undersøge nærmere, hvilken forkla-
ring der dominerer, og det er heller ikke af særskilt
interesse i denne rapport. I forhold til en model, der
relaterer de nationale test til PISA-undersøgelserne,
kan vi blot konstatere, at baggrundsvariablene bi-
drager til modellens præcision og dermed til evnen
til at forudsige et PISA-resultat på baggrund af re-
sultater fra de nationale test.
3.3 Opsamling
I dette kapital har vi vist, at køn, herkomst og socio-
økonomisk status samt sen eller normal skolestart
har betydning for de gennemsnitlige resultater i de
nationale test og i PISA-undersøgelserne. Bereg-
ninger på den statistiske model, der er foretaget i
Delrapport 2 viser, at når der er kontrolleret for køn,
herkomst og sen/normal skolestart, så bidrager den
socioøkonomiske variabel ESCS kun med en be-
grænset forklaringskraft til modellen. Da det samti-
dig er en variabel, der kommer fra PISA-undersø-
gelserne, og derfor ikke er tilgængelig fra de natio-
nale test, er denne variabel ikke medtaget i den fo-
retrukne statistiske model til forudsigelse af PISA-
resultater på baggrund af de nationale test, som
præsenteres i det følgende kapitel.
16 PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM
Som det fremgik af kapitel 2, er det muligt at sam-
menligne resultaterne fra de nationale test med re-
sultaterne fra PISA-undersøgelserne. Der er såle-
des generelt set overensstemmelse mellem elever-
nes testresultater i de to test. Spørgsmålet, der be-
svares i dette kapitel er derfor, hvordan vi fremover
kan forudsige PISA-resultaterne ud fra resultater i
de nationale test og oplysninger om elevens bag-
grund?
4.1 Den statistisk baserede model
Det tekniske grundlag for at kunne forudsige PISA-
resultaterne bygger på beregninger foretaget i Del-
rapport 2. Både de nationale test og PISA-undersø-
gelserne er baseret på en “Rasch-skala”, hvorfra de
oprindelige testresultater konverteres til en ny skala,
hvor elevernes præstationer kan opdeles i katego-
rier. Rasch-modellen er nærmere beskrevet i ne-
denstående boks.
Boks 4.1 Rasch-modellen
Rasch-modellen er en statistisk model udviklet af den danske
matematiker Georg Rasch omkring 1960. Modellen bruges til
analyse af ’duelighedstest’, f.eks. intelligenstest eller spørge-
skemaer, der måler folks holdninger til et givent emne.
Rasch-modellen er en sandsynlighedsmodel. Et særligt ken-
detegn ved den er sammenhængen mellem elevernes dygtig-
hed og opgavernes sværhedsgrad, som beregnes på samme
skala. Sværhedsgraden af en opgave defineres som lig med
dygtigheden af den elev, der har præcis 50 procent sandsyn-
lighed for at svare korrekt. Både PISA og de nationale test
benytter Rasch-modellen til at beskrive effekten af elevernes
dygtighed på svarene på spørgsmålene i de pædagogiske
test.
I modellen måles elevernes færdigheder på såkaldte logit-
skalaer. Man kan derfor tale om en “PISA-logit” for matematik
og læsning og en “logit-værdi” for hver profilområder i de nati-
onale test. En af fordelene ved logit-skalaer er, at de har in-
tervalskalaegenskaber. Det er derfor værdier på disse ska-
laer, som er blevet anvendt i forbindelse med forudsigelserne
af, hvad en given elev scorer i en PISA-undersøgelse.
I Delrapport 2 kan man læse mere om Rasch-modellen, og
hvordan den finder anvendelse i forbindelse med de nationale
test og PISA-undersøgelserne.
Indholdsmæssigt er der ikke større forskel på en
“Rasch-skala” og de skalaer, som de nationale test
og PISA-undersøgelserne anvender, end der er på
Celsius og Fahrenheit. Begge skalaer fortæller,
hvad temperaturen er. På samme måde viser både
et resultat målt på “Rasch-skalaen” og PISAs egen
skala, hvor god en elev er til f.eks. læsning.
Imidlertid viser beregninger foretaget i Delrapport 2,
at resultaterne i de nationale test og i PISA-under-
søgelserne hænger lineært sammen, hvis man må-
ler dem på “Rasch-skalaen”. Der kan derfor med
fordel opstilles en lineær regressionsmodel, der be-
skriver den matematiske sammenhæng med ud-
gangspunkt heri.
Boks 4.2 Regressionsmodellerne for læsning og
matematik
Med udgangspunkt i Rasch-modellen kan der opstilles en re-
gressionsmodel for de forventede resultater i PISA-undersø-
gelsen for henholdsvis matematik og læsning. Modellerne vi-
ser sammenhængen mellem logit-værdierne for de tre profil-
områder i enten læsning eller matematik og den forventede
PISA-logit givet ved oplysningerne om elevens baggrund.
Modellen for læsning er givet ved:
𝑷𝑰 𝑨 = − , + , ∗ + , ∗ 𝑨 + , ∗
− , ∗ ø − , ∗ 𝒆 + , ∗ 𝒆 𝒂
hvor PISAL er resultatet af læsning i PISA-målingen, S er re-
sultatet af “sprogforståelse” i den nationale test, A er resulta-
tet af “afkodning” i den nationale test, og T er resultatet af
“tekstforståelse” i den nationale test (R2 =0,442).
Modellen for matematik er givet ved:
𝑷𝑰 𝑨 = − , + , ∗ + , ∗ 𝑮 + , ∗ 𝑨
+ , ∗ ø − , ∗ 𝒆 + , ∗ 𝒆 𝒂
hvor PISAM er resultatet af læsning i PISA-undersøgelsen, T
er resultatet af “tal og algebra” i den nationale test, G er re-
sultatet for “geometri” i den nationale test, og A er resultatet
for “matematik i anvendelse” i den nationale test (R2
=0,412).
For begge modeller gælder det, at “køn” er 1 for dreng og 0
for pige; “herkomst” er 1, hvis der er tale om en elev med an-
den etnisk herkomst end dansk, og 0, hvis eleven er etnisk
dansk af herkomst; “skolestart” er 1, hvis eleven har en sen
skolestart, og 0, hvis eleven har haft en normal skolestart.
4 Forudsigelse af PISA-resultater på baggrund af de nationale
test
PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM 17
Indtil videre er der kun blevet set på sammenhæn-
gen ud fra et profilområde ad gangen eller på den
gennemsnitlige forskel på f.eks. drenges og pigers
præstationer i de to test. Med en statistisk baseret
model stilles et mere præcist spørgsmål, der benyt-
ter alle oplysningerne på et og samme tidspunkt til
at forudsige, hvad resultatet af en PISA-undersø-
gelse vil blive.
4.2 Sammenhæng mellem PISA-resultater og
de nationale test
Antag, at der foreligger testresultater fra de natio-
nale test i læsning i 8. klasse, og der ønskes et bud
på, hvor eleven vil placere sig, hvis eleven senere
skulle deltage i en PISA-undersøgelse.
Udgangspunktet kunne f.eks. være, at der var tale
om en etnisk dansk dreng med normal skolestart.
Forestiller vi os, at den pågældende elevs testresul-
tater kan kategoriseres som god i “sprogforståelse”,
god i “afkodning” og jævn i “tekstforståelse”, kan vi
forvente, at han i en senere PISA-undersøgelse vil
score omkring 465, givet at hans scorer i den natio-
nale test ligger midt i kategorierne. Dette svarer til
niveau 2 i PISAs kategoriseringer i 2012, som går
fra 407 til 480.
For at benytte regressionsmodellen for læsning i det
konkrete tilfælde er det nødvendigt at omregne vær-
dierne fra den skala, der anvendes i de nationale
test, til “Rasch-skalaen”. Vi bliver med andre ord
nødt til at gå fra Celsius til Fahrenheit. Dette er mu-
ligt, da vi i Delrapport 2 har udviklet en række meto-
der, der bruges til at omregne testværdier fra én
skala til en anden.
Når regressionsmodellerne skal bruges i virkelighe-
den, vil processen i praksis ikke starte med, at sco-
ren fra den nationale test omregnes til en værdi på
“Rasch-skalaen”. Testresultater fra de nationale test
og PISA-undersøgelserne beregnes altid først på
“Rasch-skalaen” og konverteres derefter til skalaer,
der er lettere at tolke på. Boks 4.3 beskriver, hvor-
dan værdier målt på “Rasch-skalaen” omregnes til
PISA-scorer.
Boks 4.3 Omregning af logit-værdier til PISA-scorer
For at kunne gennemskue, hvordan et testresultat målt på
“Rasch-skalaen” skal tolkes, kan det blive nødvendigt at kon-
vertere en række værdier fra én skala til en anden. I Delrap-
port 2 er derfor udarbejdet funktioner, som kan konvertere lo-
git-værdier fra PISA-undersøgelserne til PISA-scorer, der er
lettere at tolke på.
For sammenhængen mellem testresultater målt på “Rasch-
skalaen” og de scorer, som PISA anvender i egne målinger i
henholdsvis læsning og matematik, benyttes følgende funkti-
oner:
𝑷𝑰 𝑨 = , + , ∗ – , ∗
𝑷𝑰 𝑨 = , + , ∗ – , ∗
hvor “logit” angiver logit-værdien målt på “Rasch-skalaen”.
I Delrapport 2 kan man læse mere om funktionerne, og hvor-
dan det rent teknisk er muligt at opstille en matematisk formel
herfor.
Endvidere bør det bemærkes, at PISA-undersøgel-
serne ikke har til hensigt at måle den enkelte elevs
præstationer, hvorfor forudsigelserne i praksis også
vil fokusere på den samlede population af elever
omfattet af begge test.
4.3 Eksempler på modellens forudsigelser
For at give et mere nuanceret billede af, hvordan
modellens forudsigelser fungerer, kan det være nyt-
tigt at tage udgangspunkt i to illustrative eksempler,
selvom forudsigelserne i praksis vil have fokus på
grupper af elever og ikke den enkelte elev.
Første eksempel
Aisha er 13 år og går i 6. klasse. Aisha er af anden
herkomst end dansk og begyndte i skole et år se-
nere end normalt. I den nationale test i matematik
18 PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM
klarede Aisha sig ud fra de kriteriebaserede katego-
rier som følger: jævnt i “tal og algebra”, mangelfuldt
i “geometri” og mangelfuldt i “matematik i anven-
delse”.
På baggrund ovenstående beskrivelse kan vi for-
vente, at Aisha ca. to år senere vil score omkring
290 i PISA-undersøgelsen i matematik. Dette svarer
til niveauet “under 1” i PISAs kategorisystem. Da
PISA-målingen i matematik er rettet mod 15-16
årige elever, vil Aisha gå i 8. klasse, på det tidspunkt
testen gennemføres.
FIGUR 4.1
Eksempel på forventede ændringer i PISA-resulta-
tet i matematik
Forventet
PISA-score
Person fra eksemplet (Aisha) 290
Ændring fra eksemplet Forventet ændring (+/-)
DNT-resultater
Tal og algebra
Jævn -> god
+14
Geometri
Mangelfuld -> god
+40
Matematik i anvendelse
Mangelfuld -> rigtig god
+99
Alle 3 profilområder
-> Rigtig god
+183
Baggrundsvariable
Køn
Pige -> dreng
+13
Skolestart
Sen -> normal
+41
Etnicitet
Anden herkomst -> dansk
+45
Kilde: Delrapport 2 – teknisk rapport og dokumentation.
I tabel 4.1 er vist, hvordan det forventede resultat i
PISA-undersøgelsen i matematik vil ændre sig, hvis
vi ændrer på Aishas præstationer i den nationale
test. Af tabellen fremgår også, hvilke ændringer vi
kan forvente, hvis vi ændrer på oplysninger om
Aishas baggrund - altså hvis hun f.eks. havde været
en dreng eller af dansk herkomst.
Tabellen tager udgangspunkt i den score, som
Aisha ifølge modellen for matematik statistisk set
ville opnå. Herfra viser tabellen, hvor meget denne
score påvirkes af, at der ændres på oplysninger fra
eksemplet (“Forventet ændring”).
Som vi kan se af tabellen, er de baggrundsvariable,
der betyder mest for resultatet af Aishas forventede
PISA-score i matematik, den sene skolestart og
spørgsmålet om herkomst.
Andet eksempel
Jesper er 14 år, dansk af herkomst og går i 8.
klasse. Jesper begyndte i skole som normalt. I den
nationale test i læsning klarede Jesper sig ud fra de
kriteriebaserede kategorier som følger: Rigtig godt i
“sprogforståelse”, godt i “afkodning” og godt i “tekst-
forståelse”.
På baggrund af ovenstående beskrivelse kan vi for-
vente, at Jesper ca. et år senere vil score omkring
506 i PISA-undersøgelsen i læsning. Dette svarer til
niveau 3 i PISAs kategorisystem. Da PISA-under-
søgelsen i læsning er rettet mod 15-16 årige elever,
vil Jesper gå i 9. klasse, på det tidspunkt testen gen-
nemføres.
I tabel 4.2 er vist, hvordan det forventede resultatet
i PISA-undersøgelsen i læsning vil ændre sig, hvis
vi ændrer Jespers præstationer i den nationale test
og oplysninger om hans baggrund.
Ligesom for Aisha er det også tidspunktet for skole-
starten og spørgsmålet om herkomst, der er de bag-
grundsvariable, som betyder mest for den forven-
tede PISA-score i læsning for Jesper. De nævnte
variable påvirker dog i højere grad Aishas matema-
tik-score end Jespers score i læsning.
PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM 19
TABEL 4.2
Eksempel på forventede ændringer i PISA-resulta-
tet i læsning
Forventet
PISA-score
Person fra eksemplet (Jesper) 506
Ændring fra eksemplet Forventet ændring (+/-)
DNT-resultater
Sprogforståelse
Rigtig god -> fremragende
+10
Afkodning
God -> mangelfuld
-17
Tekstforståelse
God -> fremragende
+72
Alle 3 profilområder
-> Jævn
-70
Baggrundsvariable
Køn
Dreng -> pige
+13
Skolestart
Normal -> sen
-27
Etnicitet
Dansk -> anden herkomst
-22
Kilde: Delrapport 2 – teknisk rapport og dokumentation.
Boks 4.4 Eksempel på forudsigelser på baggrund
af intervaller
Som beskrevet i denne rapport, er den mest præcise måde,
hvorpå man kan forudsige et PISA-resultat, at opstille stati-
stisk baserede modeller, der benytter alle relevante oplysnin-
gerne på et og samme tidspunkt.
Modellerne kan også give indblik i, hvordan eleverne inden
for et bestemt interval af logit-værdierne for et bestemt profil-
område forventes at klare sig i en senere PISA-undersø-
gelse. Sådanne beregninger giver muligheder for mere enkle
fremstillinger af relationen mellem profilområder og PISA-re-
sultater, men forudsigelserne er selvsagt upræcise og usikre,
idet de både inkluderer oplysninger fra de andre profilområ-
der og oplysninger om elevens baggrund.
Nedenstående tabel viser således et eksempel på, hvilke re-
sultater i PISA-undersøgelsen i læsning der kan forventes in-
den for bestemte intervaller i de nationale test for “sprogfor-
ståelse”. Tabellen viser intervallerne som logit-værdier målt på
“Rasch-skalaen” og de dertilhørende forventede PISA-scorer.
I parentesen ud for PISA-scoren er endvidere angivet det
PISA-niveau, som scoren placerer sig indenfor.
Forventede PISA-scorer på baggrund af opnået testresultat i
“sprogforståelse” i de nationale test i 8. klasse
Sprogforståelse (logits) Forventet PISA-score
-4 til -3 253 (niveau <1b)
-3 til -2 345 (niveau 1a)
-2 til -1 394 (niveau 1a)
1 til 0 442 (niveau 2)
0 til 1 490 (niveau 3)
1 til 2 526 (niveau 3)
2 til 3 537 (niveau 3)
3 til 4 534 (niveau 3)
Kilde: Delrapport 2 – teknisk rapport og dokumentation.
20 PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM
4.4 Forudsigelser på baggrund af en samlet
kriteriebaseret kategorisering
De nationale test giver et mere nuanceret billede af
elevernes færdigheder end PISA-undersøgelserne.
Resultatet af de nationale test består således af en
'elev-profil' med oplysninger om, hvordan eleven
har klaret sig inden for tre forskellige profilområder.
I modsætning hertil giver PISA-undersøgelsen kun
en samlet score for elevens færdigheder i henholds-
vis læsning og matematik.
Forudsigelser af PISA-resultaterne forudsætter, at
der tages højde for alle tre profilområder på et og
samme tidspunkt. Med andre ord udnyttes, at de na-
tionale test giver et mere nuanceret billede til at for-
bedre forudsigelserne. Imidlertid vanskeliggør
denne metode formidlingen, da 'elev-profilerne' om-
fatter mange forskellige kombinationer af resultater
profilområderne imellem.
For at råde bod herpå, viser tabel 4.3 og 4.4 de for-
ventede PISA-resultater i forhold til en samlet krite-
riebaseret kategorisering, som er defineret i neden-
stående boks.
Boks 4.5 En samlet kriteriebaseret kategorisering
Testresultatet opfattes som:
“Fremragende”, hvis præstationen har været fremragende på
mindst 2 ud af tre profilområder og mindst god i det tredje.
“Rigtig god”, hvis præstationen har været rigtig god eller
bedre på mindst 2 ud af tre profilområder og mindst jævn i
det tredje.
“God”, hvis præstationen har været god eller bedre på mindst
2 ud af tre profilområder og mindst mangelfuld i det tredje.
“Jævn”, hvis præstationen har været jævn eller bedre i
mindst 2 ud af tre profilområder.
“Mangelfuld”, hvis præstationen har været mangelfuld eller
bedre i mindst 2 ud af tre profilområder.
“Ikke tilstrækkelig”, hvis præstationen har været utilstrækkelig
på to eller tre profilområder.
Kilde: Kategoriseringen er foreslået af Kvalitets- og Tilsynsstyrelsen
Da der er gradsforskelle inden for hver af de sam-
lede kriteriebaserede kategorier (og da der også er
andre forhold, der har betydning for resultatet af en
PISA-undersøgelse), kan der forventes flere for-
skellige PISA-niveauer til hver kategori. Der er i de
fleste tilfælde tale om et eller højst to dominerende
PISA-niveauer til hver kriteriebaserede kategori.
Tabellerne viser det PISA-niveau, som det forven-
tes, at flest elever (se procentsats) vil placere sig
indenfor, på baggrund af en samlet kriteriebaseret
kategorisering for henholdsvis læsning (tabel 4.3)
og matematik (tabel 4.4). Resultaterne vises sær-
skilt for elever med sen og normal skolestart, idet
PISA-resultatet som illustreret i forrige afsnit særligt
afhænger af, om eleven testes af PISA i 8. eller 9.
klasse.
TABEL 4.3
Forudsigelse af PISA-resultatet i læsning ud fra en
samlet kriteriebaseret kategorisering
DNT-kategori Sene
skolestartere
Normale
skolestartere
Fremragende 4 (44 %) 4 (76 %)
Rigtig god 3 (73 %) 3 (71 %)
God 2 (78 %) 3 (61 %)
Jævn 1a (64 %) 2 (85 %)
Mangelfuld 1a (56 %) 1a (70 %)
Ikke tilstrækkelig <1b (78 %) 1b (67 %)
Kilde: Delrapport 2 – teknisk rapport og dokumentation.
Note: Parentesen angiver, hvor mange pct. af eleverne der forventes at
opnå det pågældende PISA-resultat på baggrund af den samlede kriterie-
baserede kategorisering.
Af tabel 4.3 ses, at der er god overensstemmelse
mellem den samlede kriteriebaserede kategorise-
ring for læsning og de forventede PISA-resultater
for både sene og normale skolestartere. Det ses
dog også af både tabel 4.3 og 4.4, at det samme
PISA-niveau kan forventes at være det hyppigst fo-
rekommende resultat inden for flere kategorier.
PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM 21
TABEL 4.4
Forudsigelse af PISA-resultatet i matematik ud fra
en samlet kriteriebaseret kategorisering
DNT-kategori Sene
skolestartere
Normale
skolestartere
Fremragende 4 (67 %) 5 (90 %)
Rigtig god 3 (67 %) 4 (75 %)
God 3 (49 %) 3 (77 %)
Jævn 2 (73 %) 2 (62 %)
Mangelfuld 1 (79 %) 2 (59 %)
Ikke tilstrækkelig 1 (100 %) 1 (100 %)
Kilde: Delrapport 2 – teknisk rapport og dokumentation.
Note: Parentesen angiver, hvor mange pct. af eleverne der forventes at
opnå det pågældende PISA-resultat på baggrund af den samlede kriterie-
baserede kategorisering. Forudsigelserne af PISA-undersøgelsen i mate-
matik for normale skolestartere baserer sig på modelberegninger, idet
testresultaterne fra DNT ikke er tilgængelige for disse elever.
Af tabel 4.4 ses, at der også for matematik kan ob-
serveres en god overensstemmelse mellem de for-
ventede PISA-resultater og den samlede kriterieba-
serede kategorisering.
Både i matematik og læsning gør det sig også gæl-
dende, at de forventede PISA-resultater for de nor-
male skolestartere generelt set er bedre. F.eks. for-
ventes 90 pct. af de normale skolestartere, hvis
præstation ud fra den samlede kriteriebaserede ka-
tegorisering kan betegnes som fremragende, at
opnå PISA-niveauet 5 i matematik. For de sene sko-
lestartere forventes det mest hyppige resultat (67
pct.) ud fra en tilsvarende præstation i den nationale
test for matematik at være PISA-niveau 4.
4.5 Opsamling
Dette kapitel har vist, hvordan det fremover er mu-
ligt at foretage en statistisk baseret forudsigelse af,
hvordan en given elev vil score i en PISA-undersø-
gelse på baggrund af vedkommendes resultater fra
den nationale test og oplysninger om elevens bag-
grund. Endvidere er der givet eksempler på, hvor-
dan forudsigelserne fungerer.
Såfremt man er interesseret i at læse mere om un-
dersøgelsens tekniske baggrund, henvises læseren
til Delrapport 2.
Boks 4.6. Rapportens datagrundlag
Datagrundlaget for analyserne i denne rapport består af re-
sultater fra de nationale test i matematik og læsning i 6.
klasse i 2010 og læsning i 8. klasse fra 2011 og 2012 samt
testresultater i læsning og matematik fra PISA 2012.
Datamaterialet omfatter resultaterne fra de nationale test, så-
fremt disse forelå fra de elever, der deltog i PISA i 2012. De
fleste af de elever, der deltog i PISA i 2012 gik i 6. klasse i
2009 og 2010. Idet der kun foreligger de nationale testresul-
tater fra 6. klasse i 2010 og fra 8. klasse i 2012, da de blev
testet af PISA, har det været nødvendigt at estimere effekten
af undervisningen i 9. klasse, som de fleste PISA-elever
havde modtaget, for at kunne opstille en statistisk model til
forudsigelse.
Ud over testresultater fra de nationale test ligger oplysnin-
gerne om elevens køn, herkomst, alder og socioøkonomiske
status også til grund for analyserne.
Klarabergsviadukten 63,
SE-101 23 Stockholm
Badstuestræde 20
DK-1209 Copenhagen K
Grensen 13
N-0159 Oslo
22 PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM

Bilag 2- De nationale tests måleegenskaber.pdf

https://www.ft.dk/samling/20181/spoergsmaal/S744/svar/1573649/2044438.pdf

De nationale tests
måleegenskaber
September 2016
2018-19
S 744 endeligt svar
Offentligt
2 • De nationale tests måleegenskaber
De nationale tests
måleegenskaber
BAGGRUND
De nationale test blev indført i 2010 for at forbedre evalueringskulturen i folkeskolen.
Hensigten var bl.a. at give lærerne et bedre indblik i elevernes faglige niveauer
gennem deres skoletid – også set i forhold til det faglige niveau blandt resten af
landets elever. Tidligere var det folkeskolens afgangsprøve, der var den primære
kilde til viden om elevernes faglige niveauer set i forhold til resten af landet.
Testene udgør et blandt flere værktøjer, som kan bidrage til, at læreren får overblik
og kan vurdere elevernes udbytte af undervisningen. Da det ikke er alle områder af
fagene, der kan eller skal testes med de nationale test, kan testresultaterne ikke stå
alene i evalueringen af eleverne. Resultaterne kan også bidrage til skole-hjem-
samarbejdet.
Der er ti obligatoriske test á 45 minutters varighed i løbet af elevernes skoletid. Disse
er fordelt på seks forskellige fag og seks forskellige klassetrin. Fire af de ti test er i
dansk, læsning på fire forskellige klassetrin og to af testene er i matematik. Alle test
består af tre profilområder, som afgrænser de områder af faget, som eleverne testes i.
HVAD ER AFGØRENDE FOR TESTENES MÅLEEGENSKABER?
Hvor god en test er til at vurdere elevernes faglige niveau i et område af faget af-
hænger blandt andet af den tid, der er afsat til at afvikle testen. Jo længere tid
eleverne testes, jo flere opgaver – og dermed bedre grundlag – er der til at bedømme
elevens faglige niveau ud fra. Omvendt kan særligt de yngre elever blive trætte og
ukoncentrerede, hvis testene varer for længe. De nationale test varer som udgang-
spunkt 45 minutter.
De nationale test bygger på en adaptiv algoritme, som løbende tilpasser opgavernes
sværhedsgrader til den enkelte elevs niveau. Det betyder, at eleven starter med en
middelsvær opgave, og hvis eleven svarer korrekt, er den næste opgave lidt sværere.
Hvis eleven svarer forkert, er den næste opgave lidt lettere. Det fortsætter, indtil
elevens faglige niveau er bestemt med en vis sikkerhed. Metoden optimerer testenes
måleegenskaber og gør det muligt at opnå en vurdering af elevens faglige niveau
med størst mulig sikkerhed inden for rammerne af en typisk lektion på 45 minutter.
3 • De nationale tests måleegenskaber
Fakta – sådan bliver opgaverne til
Opgaverne til de nationale test bliver udviklet af faglige opgavekommissioner, der
er nedsat inden for hvert fag. Her udvikler fagfolk opgaver, der har høj kvalitet og er
tilpasset de områder af faget, som testes. Opgaverne bliver udviklet på baggrund af
de Fælles Mål, der er fastsat inden for faget. I testene inddrages kun de områder af
Fælles Mål, som kan testes inden for rammerne af it-baseret og selvrettende test.
De nationale test trækker på spørgsmål fra en stor opgavebank, men inden opgaver-
ne finder vej til den, bliver de afprøvet på ca. 700 elever. Her gennemgår opgaverne
en omfattende statistisk analyse, som både vurderer, om opgaverne måler på det, de
skal, og som konsoliderer den enkelte opgaves sværhedsgrad. Når det er sket, kom-
mer opgaverne ind i opgavebanken, som løbende bliver opdateret for at sikre, at der
er tilstrækkelige opgaver på alle sværhedsgrader.
DEBAT OM NATIONALE TEST
Den debat, der har været om de nationale tests måleegenskaber, har hovedsageligt
drejet sig om tre spørgsmål:
• Måler testene det, de skal?
• Hvor god er testen til at vurdere den enkelte elevs faglige niveau?
• Måler testene det samme, når de måler eleverne to gange i træk?
Nedenfor vil de tre spørgsmål blive kommenteret. Der er særligt lagt vægt på at
kommentere og illustrere via fagene dansk læsning og matematik, da det er i de fag,
at eleverne testes flest gange i løbet af skoletiden.
MÅLER TESTENE DET, DE SKAL?
Et af de kritikpunkter, der har været af de nationale test, har gået på, at testene
måler for snævert i forhold til de færdighedsområder, det er meningen, at de skal
måle på. Der testes alene i færdigheder, som det er muligt at afprøve i en it-baseret
og selvrettende test. Derfor bør testresultaterne aldrig stå alene i evalueringen af
elevernes undervisningsudbytte.
Hver test tester i tre faglige områder, de såkaldte profilområder. For eksempel består
testen i dansk læsning af en test i sprogforståelse, en test i afkodning og en test i
tekstforståelse. Det er altså kun dele af faget, eleven bliver testet i, og det gør sig
også gældende for de øvrige fag.
For at få en indikation af om testene samlet set ser ud til at måle det samme som
andre tilsvarende test og prøver, kan man se på sammenhængen mellem elevernes
testresultat i de nationale test og deres efterfølgende præstation i de relevante dele af
folkeskolens prøver i 9. klasse.
4 • De nationale tests måleegenskaber
0
2
4
6
8
10
12
Ikke
tilstrækkeligt
Mangelfuld Jævn God Rigtig god Fremragende
Karakter
dansk
læsning
Figur 2:De nationale test i matematik 6. klasse og folkeskolens prøve i 9. klasse
Figur 1: De nationale test i dansk læsning 8. klasse og folkeskolens prøve i 9. klasse
Anm.: Gennemsnitskarakter (firkant) samt 25 pct. og 75 pct. percentiler (vandret streg)
Anm.: Gennemsnitskarakter (firkant) samt 25 pct. og 75 pct. percentiler (vandret streg)
0
2
4
6
8
10
12
Ikke
tilstrækkeligt
Mangelfuld Jævn God Rigtig god Fremragende
Karakter
færdighedsregning
Den øvelse er lavet i figur 1 og figur 2 for den elevårgang, der tog 9.klasseprøver i
foråret 2015. Figuren viser, at elevernes tidligere testresultater i matematik og
læsning i 6. og 8. klasse hænger tæt sammen med deres efterfølgende karakterer i
hhv. færdighedsregning og læsning i folkeskolens prøver i 9. klasse. For begge fag er
der en statistisk signifikant sammenhæng.
5 • De nationale tests måleegenskaber
Elever, der opnår et testresultat i de nationale test i dansk læsning 8. klasse på
niveauet ’God’, får med stor sandsynlighed karakteren 4 eller 71
i folkeskolens prøve
året efter, mens elever, der opnår et testresultat i dansk læsning 8. klasse på niveau-
et ’Rigtig god’, med stor sandsynlighed får karakteren 7 eller 10 i folkeskolens prøve
året efter.
I en rapport fra konsulentfirmaet DAMVAD i 20142
påvises det i øvrigt, at der er en
sammenhæng mellem de resultater eleverne opnår i de nationale test og i den
internationale PISA-undersøgelse, jf. boks 1. Dette gælder både for testene i dansk og
matematik.
HVOR GOD ER TESTEN TIL AT VURDERE DEN ENKELTE ELEVS
FAGLIGE NIVEAU?
En anden kritik er gået på, om testene har for høj en statistisk usikkerhed i forhold
til at vurdere elevernes faglige niveau i de områder af faget, som testes.
I de nationale test er det muligt af få angivet den statistiske usikkerhed på elevens
testresultat3
. Dette er ikke en mulighed i mange andre test og prøver.
Elevernes resultater i testene afrapporteres via forskellige skalaer. På den kriterie-
baserede skala, der bl.a. kan anvendes i forældrebrevene, er der seks niveauer ranger-
ende fra ”ikke tilstrækkelig” til ”fremragende”.
Det faglige niveau, elevens testresultat er beregnet til, er det mest sandsynlige på
baggrund elevens testresultat, men det kan ikke afvises med en mindre sandsyn-
lighed, at elevens testresultat ligger lige over eller under. Nogle elevers faktiske
niveau kan ligge i gråzonen mellem to niveauer, hvilket gør vurderingen af, om en
elev fx skal vurderes ”god” eller ”rigtig god”, mere usikker.
Boks 1. Uddrag af Damvad-rapport om PISA og de nationale test (s. 5):
”Der er en tydelig sammenhæng mellem resultaterne fra de nationale test og resulta-
terne fra PISA-undersøgelserne. Sammenhængen kan observeres på tværs af profil-
områder i både læsning og matematik, men er ikke nødvendigvis jævnt fordelt.”
”Den tydelige sammenhæng mellem resultaterne fra de nationale test og PISA bety-
der samtidig, at de to test uafhængigt af hinanden når til relativt enslydende vurde-
ringer af elevers faglige niveauer. Det er en bekræftelse af, at de nationale test siger
noget relevant om elevernes faglige niveau i de områder, hvori de testes.”
1
Henholdsvis 25 pct. og 75 pct. percentiler
2
PISA-relatering af de kriteriebaserede nationale test. DAMVAD 2014 (http://www.uvm.dk/-/media/
UVM/Filer/Udd/Folke/PDF14/Okt/141008-Kriteriebaserede-test-delrapport-1.ashx)
3
En fordel ved den måde, de nationale tests er bygget op på, er, at læreren undervejs i testafviklingen
kan se en vurdering af den statistiske sikkerhed i vurderingen af elevernes faglige niveau på sin skærm.
Det giver læreren mulighed for at lade testen vare længere end de normale 45 minutter, hvis læreren
vurderer, at det er nødvendigt for at opnå en højere sikkerhed.
6 • De nationale tests måleegenskaber
Beregninger, jf. tabel 1, viser, at ni ud af ti testresultater (91 pct.) med statistisk
sikkerhed4
vurderes rigtigt i det beregnede faglige niveau eller i enten niveauet lige
under eller niveauet lige over. De resterende 9 procent af elevernes testresultater har
en større usikkerhed, der betyder, at elevens faktiske niveau ikke kan afvises at ligge
i både niveauet lige under og i niveauet lige over det målte niveau. Størstedelen af
disse elever er elever, som vurderes til en jævn præstation.
Elevens testresultat ligger med stor sandsynlighed i …
… det beregnede
faglige niveau
… det beregnede
faglige niveau eller
niveauet lige under
… det beregnede
faglige niveau eller
niveauet lige over
… det beregnede
faglige niveau eller
niveauet lige over
eller lige under
28 pct. 34 pct. 29 pct. 9 pct.
Tabel 1: Den statistiske sikkerhed på elevens testresultat på den kriteriebaserede
skala
Anm: Enkelte testresultater (<0,02 pct.) er mere usikkert bestemt
Den normbaserede percentilskala er en værdi fra 1 til 100, som læreren kan bruge til sin
egen bearbejdning af elevernes resultater. Det er således ikke en værdi, der oplyses i
forældrebrevene. Lærere kan bruge værdien til at få en mere detaljeret vurdering af
eleverne i forhold til den mindre finmaskede kriteriebaserede skala.
Usikkerheden er mere synlig på den normbaserede percentilskala. I gennemsnit er
usikkerheden på ca. ± 125
point. Det vil sige, at det ikke kan afvises, at en elev, der
scorer 75 point, reelt kan have en score, der ligger mellem 63 og 87 point. Det er
vigtig at understrege, at elevens beregnede score er den mest sandsynlige værdi,
men der er en vis sandsynlighed for, at den reelle score afviger fra denne.
Som figur 3 viser, er usikkerheden, omregnet til percentilskalaen, størst for de
elever, der scorer middel, mens den er mindre for elever med høje eller lave scorer.
4
Der er her anvendt et sikkerhedsinterval på ± 1*SEM svarende til et 67 pct. sikkerhedsinterval til vur-
dering af usikkerheden på individniveau. Til vurdering af usikkerheden på et gennemsnit anvendes
ofte et sikkerhedsinterval på ± 2*SEM svarende til et 95 pct. sikkerhedsinterval
5
Der er tale om en lille tilnærmelse, da sikkerhedsintervallerne på percentilskalaen ikke er helt
symmetriske
7 • De nationale tests måleegenskaber
0
5
10
15
20
25
30
1-10 11-20 21-30 31-40 41-50 51-60 61-70 71-80 81-90 91-100
Længde
på
sikkerhedsinterval
Elevdygtighed
MÅLER TESTENE DET SAMME, NÅR DE MÅLER ELEVERNE
TO GANGE I TRÆK?
Endelig har der været sat spørgsmålstegn ved, om de nationale test måler ensartet,
når eleverne gennemfører den samme test to gange med kort mellemrum.
De nationale test er som udgangspunkt udviklet som et redskab til de obligatoriske
målinger på bestemte klassetrin. Muligheden for at gennemføre frivillige nationale
tests i efterårssemesteret har dog gennem de seneste år været stigende. I alt gen-
nemførte knap 320.000 elever i efteråret 2015 de frivillige nationale test. Ca. 35.000 af
dem gennemførte to på hinanden følgende frivillige tests i samme fag.
Når man gennemfører to på hinanden følgende tests med få ugers mellemrum6
er
der mange faktorer, der kan spille ind i forhold til, om man kan sammenligne de to
testresultater. Lærerens instruktioner og formålet med de to hurtige testafviklinger,
elevens motivation og koncentration samt stabiliteten af lokalt it-udstyr er nogle af
de forhold, der kan påvirke et testforløb.
I tabel 2 er modellen bag de nationale test afprøvet via computersimuleringer for at
vurdere selve modellens målepræcision uafhængigt af elevernes motivation m.v.,
der måtte have betydning ved at afvikle to test med kort tids mellemrum. Konkret er
testafviklingerne simuleret med to gentagne elevforløb for 5.000 elever.
6
I gennemsnit var der 20 dage mellem
Figur 3: Den statistiske sikkerhed på elevens testresultat på percentilskalaen
8 • De nationale tests måleegenskaber
Udtrykt på percentilskalaen er forskellen i den beregnede elevdygtighed mellem de
to simuleringer i gennemsnit lig nul med et interkvartilt7
range på [-8; +8].
I alle profilområder er der desuden en statistisk signifikant positiv sammenhæng
mellem elevdygtigheden bestemt ved de to simulerede testforløb8
. Med undtagelse af
de nationale test i sprogforståelse (profilområde 1) i dansk læsning 2. klasse ligger
alle korrelationerne9
i intervallet 0,82 - 0,93.
Ser man på de faktiske resultater fra de ca. 35.000 elever, der gennemførte to på
hinanden følgende frivillige tests i efteråret 2015, er der ligeledes en positiv statistisk
signifikant sammenhæng. Denne sammenhæng er dog en anelse svagere end i de
simulerede elevforløb.
Forskellen i korrelationerne baseret på observerede og simulerede elevforløb viser, at
elevadfærden har en vis indflydelse på muligheden for at opnå det samme testresul-
tat ved at gentage den samme test. Hvis man som skole afvikler de frivillige test med
få ugers mellemrum, bør man således være særligt opmærksom på at tolke resul-
taterne varsomt og ud fra de forhold, som testene er afviklet under.
7
25 pct. og 75 pct. percentiler
8
Korrelationskoefficienten er et udtryk for sammenhængen mellem to målinger og ligger i intervallet
fra -1 til +1. Guideline til vurdering af korrelations koefficienter: ’0,0-0,2’=meget svag; ’0,2-0,4’=svag;
’0,4-0,6’=moderat; ’0,6-0,8’=stærk; ’0,8-1,0’=meget stærk. (Evans, J.D. 1996: Straightforward statistics
for the behavioral sciences)
9
Korrelationerne er beregnet på baggrund af testresultater på logit skalaen
Test Profilområde 1 Profilområde 2 Profilområde 3
Dansk læsning 2. klasse 0,78 0,93 0,91
Dansk læsning 4. klasse 0,82 0,89 0,90
Dansk læsning 6. klasse 0,82 0,86 0,87
Dansk læsning 8. klasse 0,84 0,87 0,88
Matematik 3. klasse 0,90 0,86 0,82
Matematik 6. klasse 0,89 0,86 0,89
Tabel 2 Korrelationen mellem elevdygtigheden ved to simulerede testforløb

Bilag 4- Opgavebeskrivelse for evaluering af de nationale test.pdf

https://www.ft.dk/samling/20181/spoergsmaal/S744/svar/1573649/2044440.pdf

Sagsnr.: 18/15752
1
Opgavebeskrivelse for evaluering af de nationale test
Baggrund
Folketinget vedtog i marts 2006 indførelsen af de nationale test. Den første obligatoriske testrun-
de blev gennemført i foråret 2010. De nationale test var ét blandt flere elementer i et lovforslag
fra december 2005 om fornyelse af folkeskolen for at forbedre det faglige niveau blandt eleverne.
De nationale test tjener to formål: Med vedtagelsen af L101 indførtes de nationale test som et
pædagogisk redskab til lærerne. Med vedtagelsen af L170 blev de nationale test desuden givet et
styringsformål.
De nationale test har følgende grundlæggende karakteristika:
 Hver test består af tre faglige profilområder.
 De er it-baserede.
 De er adaptive, hvilket vil sige, at de tilpasser sig elevens niveau undervejs i testforløbet.
 De er selvscorende.
 Der gives en tilbagemelding pr. profilområde samt en samlet vurdering.
 En test kan gennemføres på én lektion (45 min.).
De nationale test blev senest evalueret i 2013. Folketinget blev som opfølgning på evalueringen i
2013 lovet, at der skulle igangsættes en ny evaluering efter en femårig periode. Evalueringen skal
danne grundlag for en ny redegørelse til folketinget og for at vurdere behovet for eventuelle æn-
dringer. Der henvises til bilag 1 for yderligere baggrund om de nationale test.
Opgavens formål
Formålet med evalueringen af de nationale test er at få viden om, hvorvidt de nationale tests ind-
hold og udformning har styrket skolernes evalueringskultur og derigennem elevernes faglige ni-
veau.
Evalueringen skal belyse styrker såvel som svagheder omkring indholdet og brugen af de nationa-
le test i folkeskolen.
Evalueringen skal give et vidensgrundlag, der kan danne grundlag for redegørelse til folketinget
og danne afsæt for det fremadrettede arbejde med udvikling og brug af de nationale test i folke-
skolen.
Opgavens indhold og metode
De nationale test tjener flere formål og skal med sine resultater give mening for mange forskellige
brugere på flere forskellige niveauer. Det er derfor afgørende for brugbarheden af evalueringen,
at den gives et summativt såvel som formativt sigte, og at den afvejer de heterogene forhold med
de respektive overordnede formål for testene rettet mod mange aktører med henblik på, at der
kan træffes et afvejet og kvalificeret valg om den fremadrettede brug og udvikling af de nationale
test.
2018-19
S 744 endeligt svar
Offentligt
Sagsnr.: 18/15752
2
Opgaven består overordnet af to dele:
1) Validering af teknisk beregning
2) Undersøgelse af betydningen og brugen af de nationale test
Delopgave 1: En analyse af den statistiske usikkerhed, reliabiliteten og øvrige måleegenskaber forbundet med de
nationale test.
STIL gennemfører en analyse af den statistiske usikkerhed på de beregnede elevdygtigheder og af
reliabiliteten af testene.
Konkret bliver følgende evalueringsspørgsmål besvaret:
1. Regner de nationale test rigtigt?
Ved besvarelse af spørgsmålet skal den kritik der rejses af den statistiske sikkerhed og reliabi-
liteten i de nationale test adresseres. Herunder skal det klarlægges om:
a. opgavernes sværhedsgrader stadig er korrekte?
b. opgaverne fortsat passer til Rasch-modellen?
c. det er muligt at forbedre den adaptive algoritme med henblik på at reducere den statisti-
ske usikkerhed?
2. Det skal afdækkes, om sikkerheden i målingerne af elevernes færdigheder forbedres ved at
kombinere resultater fra forskellige profilområder? Herunder sigter spørgsmålet på at klar-
lægge følgende:
a. Kan det påvises, at profilområderne måler forskellige aspekter af den samme bagvedlig-
gende færdighed?
b. Som følge af spørgsmål a: Kan testresultaterne fra profilområderne slås sammen og
dermed forbedre sikkerheden i testene?
Delopgavens metode: Spørgsmålene et og to løses internt i Undervisningsministeriet ved Styrel-
sen for IT og Læring (STIL). Undersøgelsen heraf fordrer ikke indsamling af nye data, men skal
gennemføres ved analyse af eksisterende data samt ved at udarbejde yderligere dokumentation for
testenes egenskaber.
STIL udarbejder dokumentation for den anvendte metode til bestemmelse af opgavernes svær-
hedsgrader herunder de enkelte faser i den statistiske analyse. Der foretages analyse af, hvorvidt
opgavernes sværhedsgrader er ændret over årene, og i hvilket omfang der tages højde for dette i
den adaptive algoritme.
Endvidere vil mulige forbedringstiltag af den adaptive algoritme blive beskrevet herunder effek-
ten på den statistiske usikkerhed.
Muligheden for at samle testen i de tre adskilte profilområder til ét samlet profilområde undersø-
ges ved analyse af eksisterende elevbesvarelser.
STIL involverer eksterne forskere i analyserne. Evaluator opgave i forbindelse med delopgave 1
er at validere resultaterne af STILs dokumentation og analyser ved brug af nationale og nordiske
forskere på området. STUK skal godkende reviewgruppen.
Sagsnr.: 18/15752
3
Delopgave 2: Undersøgelse af brugen af de nationale test
Der skal gennemføres en kortlægning og analyse af brugen af de nationale test blandt elever, lære-
re, ledere, kommunalt forvaltnings- og politisk niveau og på statsligt forvaltnings- og politisk ni-
veau. Konkret skal følgende evalueringsspørgsmål besvares:
1. Findes der test i Danmark eller andre lande, som med samme tidsforbrug måler mere præcist end de nationa-
le test?
Der skal udarbejdes en kortlægning og komparativ analyse af det danske og internationale
testlandskab, der omfatter
a. En analyse af målepræcisionen i andre danske test i forhold til hvad der er beskrevet i
rammedokumenter om skolens formål og målsætninger og i forhold til tidsforbruget
ved de analyserede test?
b. En kortlægning af andre landes nationale testredskaber og en analyse af præcisionen i
disse sammenlignet med de nationale test og set i forhold til tidsforbruget med testred-
skaberne.
c. En kortlægning af internationale erfaringer med raschscorede lineære test og erfaringer
med en kombination af adaptive og lineære test
2. I hvilket omfang er der sammenhæng mellem på den ene side skolens formål og målsætninger beskrevet i
rammedokumenter og på den anden side indholdet af de nationale test?
Der skal udarbejdes en kortlægning og analyse af de sammenhænge, der er mellem folkesko-
lens formål og indholdet af de nationale test, der omfatter
a. En analyse af om de nationale test måler centrale dele af faget og fagenes formål jf. Fæl-
les Mål. Der tages udgangspunkt i fagenes formål, og de centrale dele af fagene udvæl-
ges i samarbejde med STUK.
b. En gennemgang af det faglige indhold der testes på i de nationale test samt en empirisk
analyse af samvariationen i elevers præstationer i testene og andre aspekter af fagets
formål.
3. Oplever lærerne, at den information som de nationale tests producerer, er nyttig og handlingsvejledende i det
pædagogiske arbejde?
Herunder ønskes som minimum en analyse af anvendeligheden for lærere og ledere af vej-
ledningerne knyttet til de nationale test, der omfatter
a. En analyse af den pædagogiske og didaktiske informationsværdi af oplysninger knyttet
til de nuværende profilområder for lærere og ledere.
b. En kortlægning og analyse af i hvilket omfang de kriteriebaserede og normbaserede re-
sultater giver oplysninger, som lærere, vejledere og ledere kan bruge til at vurdere, hvor
eleven ligger i forhold til skolens formål og målsætning?
c. En undersøgelse af hvilke tilbagemeldinger, der er tilgængelige for lærere, herunder
hvilken type tilbagemeldinger lærerne foretrækker.
4. Hvordan forstår lærerne, hvad resultaterne af de nationale test viser?
En kortlægning og analyse af lærernes forståelse og fortolkning af de nationale testresultater,
der omfatter
Sagsnr.: 18/15752
4
a. En kortlægning af i hvilken grad lærerne har kendskab til vejledningsmaterialet om de
nationale test
b. En kortlægning af, hvorvidt de oplever, at den information som de nationale test pro-
ducerer, er nyttig og handlingsanvisende i det pædagogiske arbejde.
c. En analyse af i hvilken grad vejledningerne svarer til det som de nationale tests visnin-
ger.
d. En analyse af den sammenhæng der er mellem a, b og c.
5. Når de nationale test fokuserer på delaspekter af specifikke fagområder, hvordan præger valget af disse
delaspekter så den måde, som det enkelte fag opfattes, realiseres og prioriteres?
En analyse af hvordan undervisningen afspejler profilområderne i de enkelte test, der som
minimum omfatter:
a. En analyse af om og i givet fald hvordan lærerne oplever, at de nationale test ved deres
blotte eksistens, indhold og form, påvirker lærernes undervisning; dels i klassesammen-
hæng, dels i forhold til den enkelte elev.
6. Hvordan er evalueringspraksis på skolerne?
En kortlægning og analyse af den eksisterende evalueringspraksis på skolerne, der som mi-
nimum omfatter:
a. En kortlægning af hvilke redskaber lærere og ledere bruger til at få indblik i elevernes
faglige niveau.
b. En kortlægning af hvordan dialoger omkring testresultaterne foregår.
c. En kortlægning af hvordan testresultaterne indgår i den pædagogiske praksis i forhold
til eleverne.
d. En kortlægning og analyse af hvordan lærernes oplevelse af sammenhængen mellem de
nationale test på den ene side og på den anden side det pædagogiske arbejde og skolens
evalueringspraksis i øvrigt.
e. En kortlægning af, hvad forvaltningsniveau, ledere, vejledere og læreres oplevelse af
udviklingen af evalueringspraksis er over de seneste år
7. I hvilket omfang og hvordan arbejder skoleledere og lærere sammen om at tolke testresultater og bruge dem i
forhold til udvikling af den pædagogiske praksis?
Der udarbejdes en kortlægning af læreres og lederes samarbejde om de nationale test og test-
resultater og tolkningen deraf. Kortlægningen skal som minimum omfatte:
a. En kortlægning og analyse af hvordan vejledere og konsulenter inddrages i samarbejdet,
og hvem der inddrager disse?
b. En analyse af hvordan samarbejdet mellem ledere og lærere om testene påvirker lærer-
nes didaktik
8. Hvordan anvender og oplever skoleledelsen de nationale test i ledelsesarbejdet og i skolernes evalueringsprak-
sis i øvrigt?
Der skal udarbejdes en kortlægning og analyse af ledelsens anvendelse af de nationale test i
relation til forvaltningslaget og pædagogiske og strategiske ledelse af skolen, der som mini-
mum omfatter:
a. En kortlægning af samarbejdet mellem skoleledelsen og forvaltningen på baggrund af
og omkring testresultaterne.
Sagsnr.: 18/15752
5
b. En kortlægning og analyse af hvilken rolle de nationale testresultater spiller for ledelsen
af den enkelte lærer, og hvordan lærerne tilsvarende oplever, at ledelsen anvender test-
resultaterne?
c. En kortlægning af om de nationale test spiller en anden rolle end eventuelle øvrige test
på skolen i ledelsesarbejdet og i givet fald hvilken.
9. Hvad er elevernes oplevelse af, hvordan lærerne forklarer om de nationale test, herunder testsituationen, de
nationale tests formål og anvendelse?
Der skal gennemføres en analyse af situationen, der omkranser testsituationen således der
analyseres på sammenhænge mellem lærernes rammesætning af testene og elevernes testad-
færd. Analysen skal gennemføres i indskoling på mellemtrin og i udskolingen og skal som
minimum indeholde
a. En kortlægning af elevernes oplevelse af lærernes forklaring af de nationale test
b. En analyse af den introduktion og rammesætning lærerne giver før gennemførelse af de
nationale test
c. En analyse af lærernes adfærd i forbindelse med gennemførsel af de nationale test
d. En analyse af sammenhængen til elevernes oplevelse af testsituationen både før, under
og efter gennemførslen af testene.
e. En analyse af elevernes testadfærd i forbindelse med afviklingen af testene og sammen-
hænge til lærernes rammesætning og adfærd i testsituationen.
10. Hvad er virkningen af de nationale test på elevernes faglige niveau?
Der skal gennemføres en analyse af hvilken betydning de nationale test har og har haft for
udviklingen i elevernes faglige niveau. Analysen skal i videst muligt omfang isolere betydnin-
gen af de nationale test fra andre indsatser med betydning for elevernes faglige resultater.
Analysen skal som minimum
a. Forholde sig til hvordan de nationale test som del af skolernes evalueringspraksis har og
har haft betydning for elevernes faglige udvikling.
b. Forholde sig til hvordan de nationale test har og har haft betydning for mål for elever-
nes læring, mål for lærernes og skolernes pædagogik og didaktik
c. Forholde sig til hvordan de nationale test har og har haft betydning for lærerenes tilret-
telæggelse af undervisningen af den enkelte elev og undervisning af klassen.
11. Får eleverne feedback efter test og i så fald, kan de bruge den i forhold til deres egen læring? Indgår eleverne i
samarbejde om opfølgning på de nationale test?
Der skal gennemføres en kortlægning af den feedback eleverne får efter testenes afholdelse,
der som minimum skal indeholde
a. En kortlægning af omfang og indhold af den feedback lærere giver til eleverne.
b. En kortlægning af i hvilket omfang testresultaterne genbesøges og formativt danner
grundlag for elevenes faglige udvikling.
12. Hvordan vurderer forældre (som vidner til elevernes reaktioner og lærernes information) fordele og ulemper ved
de nationale test?
Der skal gennemføres en kortlægning af forældrenes vurdering af de fordele og ulemper de
ser ved brugen af de nationale test. Kortlægningen skal som minimum omfatte
a. Den opfattelse de har af nytten af de nationale test
Sagsnr.: 18/15752
6
b. Den tilbagemelding og italesættelse de oplever fra elever og lærere
13. Hvordan anvendes de nationale test institutionelt til styring?
Der skal gennemføres en kortlægning af omfang og måden hvorpå skolebestyrelsen i samar-
bejde med skolens ledelse ser og anvender de nationale test til at sætte pædagogiske og stra-
tegisk retning for skolen. Denne skal som minimum omfatte
a. Hvordan og i hvilket omfang anvender skolebestyrelserne resultaterne af de nationale
test i arbejdet.
b. Hvilke andre data de nationale test kombineres med som grundlag for beslutninger om
skolen strategisk og pædagogisk.
En kortlægning af, hvorvidt ledere og skolebestyrelser anvender muligheden for at følge
faglig progression gennem hele skoleforløbet.
14. Hvordan anvendes de nationale test på kommunalt styringsniveau?
Der skal gennemføres en kortlægning og analyse af det kommunale niveaus anvendelse af
testdata fra de nationale test i relation til styring af det samlede kommunale skolevæsen og i
relation til den enkelte skole. Kortlægning og analyse skal som minimum forholde sig til:
a. Hvordan og i hvilket omfang der politisk træffes beslutninger på baggrund af de natio-
nale test.
b. Hvad man politisk og forvaltningsmæssigt supplerer med for at have sikker viden om
skolernes faglige status.
c. En kortlægning af, hvorvidt man på kommunalt niveau anvender muligheden for at
følge faglig progression gennem hele skoleforløbet.
15. Hvordan anvendes de nationale test på nationalt styringsniveau?
Der skal gennemføres en kortlægning og analyse på nationalt niveau af anvendelse af viden
fra de nationale test i relation til politisk beslutningsgrundlag, tilsyn og andre indsatser samt
forskning på skoleområdet. Kortlægning og analyse skal som minimum forholde sig til:
a. En kortlægning af, hvordan og i hvilket omfang viden fra de nationale test anvendes i
forhold til det politiske niveau.
b. En kortlægning af, hvordan og i hvilket omfang viden fra de nationale test anvendes i
viden og forskning, der anvendes af det politiske niveau.
c. Om der kan indhentes mål for faglighed af anden vej om elevernes skoleforløb over tid
frem mod folkeskolens afgangsprøve.
d. En kortlægning af, hvorvidt man på nationalt niveau anvender muligheden for at følge
faglig progression gennem hele skoleforløbet.
Delopgavens metode: Evalueringsopgaven omkring de nationale test skal give viden på tre ni-
veauer: 1) målopfyldelse, 2) implementering og 3) som teoribaseret evaluering.
Målopfyldelsesevaluering
Der skal foretages en evaluering af graden af hvorvidt de fastsatte mål for de nationale test er
opnået, og i hvilken grad de nationale test har bidraget til opfyldelsen af de formål der blev givet
for de nationale test.
Implementeringsevaluering
Sagsnr.: 18/15752
7
Som en del af evalueringen af de nationale test skal der foretages en evaluering af implementerin-
gen af testene. Evalueringen af implementeringen skal undersøge hvilke faktorer, der har fremmet
eller besværliggjort implementeringen samt beskrive de involverede aktørers (elever, lærere, lede-
re, forvaltnings- og politiske aktører) erfaringer med de nationale test, samt de fordele og ulem-
per, de ser ved brugen af de nationale test.
Teoribaseret evaluering og metoder
Den teoribaserede evaluering har til formål at undersøge, om de forventede resultater ved brugen
af de nationale test i forhold til de givne formål er opnået. Den teoribaserede evaluering skal der-
for bero på et evalueringsdesign, som muliggør undersøgelse af sammenhængen mellem indsat-
serne med de nationale test og resultaterne. Evalueringsdesignet skal gøre det muligt at identifice-
re de forhold og de mekanismer, der synliggør hvordan de nationale test virker for de respektive
aktører.
Der skal indgå kvantitative og kvalitative dataindsamlinger i evalueringen i forhold til relevante
forhold, der gør sig gældende for aktører og aktiviteter omkring brugen af de nationale test. Det
kan eksempelvis være spørgeskemaundersøgelse, anvendelse af registerdata, forløbs- og testdata,
brug af data fra følgeforskningen til folkeskolereformen, kvalitative casestudier og deskresearch.
Det er et krav, at der gennemføres tiltag til at validere resultater af undersøgelsen. Det kan være
ved kvalificeringsworkshop m.v. Evaluator kan komme med yderligere forslag til undersøgelses-
design.
Evaluator skal sandsynliggøre, at undersøgelsesdesignet giver solide analyser. Evaluator skal end-
videre tilbyde et design, der sikrer repræsentativitet i forhold til demografisk og geografisk spred-
ning og variation i kommune- og skolestørrelser m.v.
Formidling og endeligt produkt
Evaluator skal foretage en samlet afrapportering af delopgave et og to. Rapporten skal afveje
evalueringens resultater for de respektive aktører op mod formålene for de nationale test og give
mulighed for, at der kan anvises retning for den fremadrettede udvikling og brug i folkeskolen.
Tidsmæssige krav
Det forudsættes, at der er en tæt dialog mellem Styrelsen for Undervisning og Kvalitet og evalua-
tor med månedlige statusmøder.
Evaluering og afrapportering udarbejdes efter følgende tidsplan:
 Opstartsmøde primo marts 2019
 Dataindsamling i forbindelse med dem obligatoriske testafvikling fra 1. marts til 30. april.
 Statusnotat ultimo august som opfølgning på dataindsamlingen og de indledende analyser.
 Udkast til rapport afleveres til STUK ultimo oktober 2019
 Endelig rapport afleveres til STUK ultimo november 2019
 STUK offentliggør rapport med udgangen af januar 2020
Budget
Opgaven skal løses inden for en ramme på 3.000.000 kr., der faktureres med aflevering af den
endelige rapport.