Svar på spm. nr. S 744: Vil ministeren oplyse, hvad ministerens holdning er til Politikens artikel »Ministerium kendte til fejl i tests« fra den 3. april 2019, herunder om forskerne har ret i deres kritik, og om ministeriet var bekendt med, at de nationale test gav forkerte resultater i over halvdelen af de gennemførte test?
Tilhører sager:
Aktører:
- Besvaret af: undervisningsministeren
- Til: Merete Riisager
- Spørger: Annette Lind
- Minister: undervisningsministeren
Svar på S744-.docx
https://www.ft.dk/samling/20181/spoergsmaal/S744/svar/1573649/2044436.pdf
Ministeren Frederiksholms Kanal 21 1220 København K Tlf.: 35 87 88 89 E-mail: stil@stil.dk www.stil.dk CVR-nr.: 13223459 11. april 2019 Sagsnr.: 19/05455 Folketingets Lovsekretariat Christiansborg Medlem af Folketinget Annette Lind (S) har den 3. april 2019 stillet mig følgende spørgsmål nr. S 744, som jeg hermed skal besvare. Spørgsmål nr. S 744: ”Vil ministeren oplyse, hvad ministerens holdning er til Politikens artikel »Ministerium kendte til fejl i tests« fra den 3. april 2019, herunder om forskerne har ret i deres kritik, og om ministeriet var bekendt med, at de nationale test gav forkerte resultater i over halvdelen af de gennemførte test?” Svar: Undervisningsministeriet har i februar 2016 offentliggjort en analyse af sammenhængen mellem resultaterne i de nationale test for elever, som har gennemført samme test to gange i den frivillige testperiode i efteråret 2014. Resultaterne af analysen fremgår af et notat ("Undersøgelse af de natio- nale tests reliabilitet"), som blev sendt til Børne- og Undervisningsudval- get i februar 2016. Med henvisning til notatet fremgår det af Politikens artikel ("Ministerium kendte til fejl i tests"), at der er "forkerte resultater i over halvdelen af de gennemførte nationale test". Undervisningsministeriet vurderer ikke, at der kan drages denne konklusion på baggrund af notatet. Undervisningsministeriet har den 3. april 2019 offentliggjort en presse- meddelelse om notatets resultater og formidlingen til Børne- og Under- visningsudvalget. Jeg har vedlagt pressemeddelelsen til orientering. Jeppe Bundsgaard og Svend Kreiner har den 2. april 2019 offentliggjort en undersøgelse af de nationale test i læsning i 8. klasse. Heri konklude- rer de to forskere blandt andet, at en del af testopgaverne har forkerte sværhedsgrader, og at testresultaterne er for usikre. 2018-19 S 744 endeligt svar Offentligt 2 Undersøgelsen har givet anledning til en debat, som næsten kan efterlade det indtryk, at elevernes testresultater er helt tilfældige. Jeg mener, at der er behov for at nuancere debatten. Det er i den forbindelse værd at bemærke, at der er en sammenhæng mellem elevernes resultater i de nationale test og de samme elevers efter- følgende karakter ved folkeskolens prøver. Jeg har vedlagt et notat, som beskriver sammenhængen ("De nationale tests måleegenskaber"). Nota- tet er tidligere sendt til Børne- og Undervisningsudvalget i september 2016. Samtidig viser en DAMVAD-rapport fra 2014, at der er en sam- menhæng mellem resultaterne fra de nationale test og resultaterne fra PISA-undersøgelserne. Rapporten er ligeledes vedlagt. Jeg er optaget af, at de nationale test virker efter hensigten. Testenes indhold og metode skal fagligt være i top, og arbejdet med testene skal give mening for lærere, elever og forældre. I 2018 har jeg besluttet at igangsætte en grundig evaluering af de nationa- le test, som skal danne grundlag for justeringer. De kritikpunkter, som Jeppe Bundsgaard og Svend Kreiner rejser i undersøgelsen, indgår allere- de i den igangværende evaluering. Til orientering har jeg vedlagt opgave- beskrivelsen for evalueringen, som viser, hvilke spørgsmål evalueringen skal give svar på. Jeppe Bundsgaard og Svend Kreiner sidder med i den rådgivningsgrup- pe, der blandt andet består af forskere og fagfolk, som har rådgivet mini- steriet om indholdet af evalueringen. Evalueringen af de nationale test forventes afsluttet ultimo 2019. På bag- grund af evalueringen vil det være relevant, at der i folkeskoleforligskred- sen sker en grundig drøftelse af, hvilke justeringer der er behov for at gennemføre i de nationale test. Med venlig hilsen Merete Riisager
Bilag 1- Pressemeddelelse .pdf
https://www.ft.dk/samling/20181/spoergsmaal/S744/svar/1573649/2044437.pdf
8.4.2019 Fakta om nationale test - Undervisningsministeriet https://www.uvm.dk/aktuelt/nyheder/uvm/2019/apr/190403-fakta-om-nationale-test 1/3 / Forside Nyheder Fakta om nationale test PRESSEMEDDELELSE · 3. april 2019 Avisen Politiken bringer i dag en historie under overskriften ”Ministerium kendte til fejl i nationale tests i skolen”. I den forbindelse vil Undervisningsministeriet gerne præcisere en række forhold om det omtalte notat. Artiklen tager udgangspunkt i , som Undervisningsministeriet har sendt til Folketingets Børne- og Undervisningsudvalg, som også kan findes på Folketingets hjemmeside. Man kan ikke på baggrund af notatet konkludere, at der er fejl i halvdelen af testene, som Politiken skriver. Undervisningsministeriets faglige vurdering Et centralt kritikpunkt er en tabel i notatet, som viser sammenhængen mellem to resultater i to nationale test, som en elev har taget med relativt kort mellemrum. Hovedresultaterne i tabellen er nævnt i rapportens sammenfatning, men ikke i alle detaljer. Notatet viser samlet set, at korrelationen totalt set er ”acceptabel” mellem elevens samlede vurdering i forsøg 1 og forsøg 2. Der er samtidig en række faglige forklaringer på, hvorfor resultatet er, som det er, og hvorfor den omtalte tabel ikke er uddybet i sammenfatningen. Tabellen viser ganske rigtigt, at der på 19 ud af 30 profilområder er en relativt lav sammenhæng (korrelationskoefficient) mellem 1. og 2. testresultat. Alle sammenhængene er dog statistisk signifikante. Det betyder, at de elever, der får de bedste resultater i 1. test, også er blandt de bedste i 2. test. Den relativt lave sammenhæng er ikke en central pointe, og ministeriets faglige vurdering var, at pointen ikke kan generaliseres. Det var ministeriets faglige vurdering i 2016, og det er det stadig. Det skyldes, at elevernes adfærd og lærernes instruktion har meget stor betydning for sammenhængen mellem 1. og 2. test. Elevens motivation og koncentration samt det antal dage, der går mellem de to gentagelser, har stor betydning. Faktisk større betydning end selve testsystemets udformning. De svageste statistiske sammenhænge gør sig især gældende i de test, hvor det er mest forventeligt. Sammenhængen er svagest i de test med færrest deltagere, og hvor spredningen i resultaterne er mindst. Mindre spredning betyder i sig selv, at korrelationskoefficienten bliver lavere. Det fremgår også af side 10 i samme rapport. Som opfølgning på notatet fra februar 2016 har Undervisningsministeriet dels genberegnet korrelationerne i notatet, hvor kun elever, der har gentaget testen inden for syv dage, er medtaget. Der er også lavet tilsvarende beregninger på baggrund af simuleringer. Simuleringer har den fordel, at de ikke er påvirket af elevernes aktuelle testadfærd. Disse afspejler således bedre de reelle forhold ved teknikken (algoritmen) i de nationale test. Disse beregninger findes i og er også sendt til Folketinget. Samtidig er det ministeriets faglige vurdering, at det er mere relevant at se på sammenhængen mellem testresultater og andre resultater for eleverne. På vores hjemmeside er der flere andre rapporter om måleegenskaberne ved de nationale test. For eksempel har vi set på sammenhængen mellem nationale test og elevernes resultater i PISA-undersøgelserne og ved folkeskolens afgangsprøver. I begge tilfælde er der en udmærket sammenhæng mellem resultater fra de nationale test og andre test og prøver. . Intet har været holdt skjult Der har ikke været holdt noget skjult. Rapporten ligger på Folketingets egen hjemmeside, fordi den er sendt til Børne- og Undervisningsudvalget. De efterfølgende notater og beregninger er også offentligt tilgængelige. I efteråret 2016 afholdt Folketingets Børne- og Undervisningsudvalg en offentlig høring om testene. Her deltog blandt andre professor Jeppe Bundsgaard, som eksplicit gennemgik den ovenfor nævnte tabel fra side 10 i Undervisningsministeriets rapport fra februar 2016 (se side 4 i . Alt materiale og video ligger på . et notat fra 2016 (pdf) notatet: De nationale tests måleegenskaber (pdf) Læs mere i vores undersøgelser om nationale test Jeppe Bundsgaards præsentation (pdf) Folketingets hjemmeside UNDERVISNINGS MINISTERIET 2018-19 S 744 endeligt svar Offentligt 8.4.2019 Fakta om nationale test - Undervisningsministeriet https://www.uvm.dk/aktuelt/nyheder/uvm/2019/apr/190403-fakta-om-nationale-test 2/3 Grundig evaluering Undervisningsministeren har i januar 2018 sat en grundig evaluering af de nationale test i gang. Evalueringen skal skabe et solidt og kvalificeret grundlag for at tage stilling til den fremadrettede udvikling og brug af de nationale test. Både i forberedelsen af evalueringen, under og efter bliver relevante eksperter, interessenter og praktikere inviteret til at bidrage. Inddragelsen skal sikre, at evalueringen tager højde for både kritik, udfordringer, ønsker og behov i forhold til de nationale test. 8.4.2019 Fakta om nationale test - Undervisningsministeriet https://www.uvm.dk/aktuelt/nyheder/uvm/2019/apr/190403-fakta-om-nationale-test 3/3 Kontakt Pressetelefon Undervisningsministeriet (Du kan ikke sende sms til pressetelefonen) 22 40 09 30
Bilag 3- Damvad rapport om PISA-sammenhæng.pdf
https://www.ft.dk/samling/20181/spoergsmaal/S744/svar/1573649/2044439.pdf
05/09/14 PISA-relatering af de kriterie- baserede nationale test Delrapport 1 – formidling af resultater 2018-19 S 744 endeligt svar Offentligt 2 PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM For information on obtaining additional copies, permission to reprint or translate this work, and all other correspondence, please contact: DAMVAD info@damvad.com damvad.com Copyright 2014 PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM 3 1 Indledning og sammenfatning 4 1.1 Hovedkonklusioner 5 1.2 Læsevejledning 6 2 Sammenhænge i de nationale test og til PISA-undersøgelserne 7 2.1 Indplacering af elever ud fra den normbaserede og den kriteriebaserede skala 7 2.2 Sammenhængen mellem kriteriebaserede nationale test og niveauer i PISA- undersøgelserne 9 2.3 Sammenhængen mellem PISA-resultater og de forskellige profilområder 11 2.4 Opsamling 12 3 Betydningen af baggrundsvariable 13 3.1 Baggrundsvariables gennemsnitlige betydning for nationale test og PISA 13 3.2 Baggrundsvariables rolle i forudsigelse 14 3.3 Opsamling 15 4 Forudsigelse af PISA-resultater på baggrund af de nationale test 16 4.1 Den statistisk baserede model 16 4.2 Sammenhæng mellem PISA-resultater og de nationale test 17 4.3 Eksempler på modellens forudsigelser 17 4.4 Forudsigelser på baggrund af en samlet kriteriebaseret kategorisering 20 4.5 Opsamling 21 Indhold 4 PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM Undervisningsministeriet har for at styrke opfølgnin- gen af de faglige mål i aftalen om den seneste fol- keskolereform, “Et fagligt løft af folkeskolen”, igang- sat et arbejde med at kriteriebasere de nationale test. Da de nationale test første gang blev indført i 2010, var tilbagemeldingerne af testresultaterne normbaserede og derfor uden faste kriterier for, hvornår en elevs resultater i et givent fag på et gi- vent klassetrin var tilfredsstillende. I stedet blev re- sultaterne for den enkelte elev sammenlignet med andre elevers resultater, opgjort som landsgennem- snittet i 2010. I “Et fagligt løft af folkeskolen” er der formuleret en række konkrete faglige mål for folkeskolen. Målene er bl.a., at mindst 80 pct. af eleverne skal være gode til at læse og regne i de nationale test, og at andelen af de allerdygtigste elever i dansk og matematik skal stige år for år. Derudover skal andelen af elever med dårlige resultater i de nationale test for læsning og matematik reduceres år for år. For at der kan føl- ges op på disse nationale mål, kriteriebaseres de nationale test, så der fremover også er en fast skala, der indikerer om en elevs resultater er gode eller dårlige på baggrund af fagligt fastsatte kriterier. Arbejdsgrupper af personer med faglig indsigt i de enkelte testfag (opgavekommissionerne) har i før- ste halvdel af 2014 formuleret en række foreløbige kriterier for at vurdere den enkelte elevs resultater i de nationale test. På baggrund af kriterierne indde- les elevernes testresultater i en række kategorier, der spænder fra utilstrækkelig til fremragende. På tidspunktet for afrapporteringen er de foreløbige kri- terier ved at blive pilotafprøvet. Den nærværende undersøgelse skal ses i sammen- hæng med, at der ud over de nationale test samtidig gennemføres PISA-undersøgelser i Danmark, der også indeholder kategoriseringer af elevernes fag- lige niveau. I forbindelse med dette projekt er der derfor blevet lagt vægt på at undersøge sammen- hængen mellem de foreløbige kriteriebaserede ka- tegorier og PISAs kategorier. Det overordnede formål med projektet er at opstille en sandsynlighedsbaseret model for at relatere re- sultaterne i de nationale test til resultaterne i PISA- undersøgelsen fra 2012. Undersøgelsens formål er nærmere beskrevet i boks 1.1 nedenfor. Undersøgelsen tager dermed sit udgangspunkt i de foreløbige kriterier for vurdering af elevers præstati- oner i de nationale test og sammenholder dem med resultaterne i PISA-undersøgelsen fra 2012. Boks 1.1 Formålet med opgaven Formålet med opgaven er at klarlægge, hvorvidt resultater i de nationale test kan relateres til PISA-resultater. Målsætningen med afdækningen er således at udarbejde: En sandsynlighedsbaseret model for relateringen af re- sultater i de nationale test på test- og profilområdeniveau til PISA. Testniveauer, som skal inddrages, er: o matematik (herunder profilområderne: (1) tal og al- gebra, (2) geometri og (3) matematik i anvendelse) o læsning (herunder profilområderne: (1) sprogforstå- else, (2) afkodning og (3) tekstforståelse) Relatering af de kriteriebaserede kategorier i de nationale test med kategorier i PISA Derudover ønskes det afdækket: o hvor stort et sammenfald, der er blandt elever, der ikke har deltaget i de nationale test og PISA. o eventuelt hvorvidt de socioøkonomiske effekter er ens i de nationale test og PISA. Kilde: Kvalitets- og Tilsynsstyrelsen 2014 Grundet undersøgelsens tekniske natur afrapporte- res den i to delrapporter: Delrapport 1 – formidling af resultater og Delrapport 2 – teknisk rapport og dokumentation. Hvor Delrapport 2 fokuserer på op- stillingen af den statistiske model og metodiske og datamæssige udfordringer i den forbindelse, afrap- porterer vi i denne rapport (Delrapport 1) resulta- terne af tre spørgsmål: 1 Indledning og sammenfatning PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM 5 1. Er der en sammenhæng mellem resulta- terne i de nationale test og resultaterne i PISA-undersøgelsen, og hvordan ser denne sammenhæng i givet fald ud? 2. Hvilken rolle spiller baggrundsvariable som elevens køn, herkomst og socioøkonomi- ske status samt sen eller normal skolestart for evnen til at forudsige testresultaterne? 3. Kan vi – og i så fald hvordan – fremover for- udsige PISA-undersøgelserne på baggrund af de nationale test? Undersøgelsen er gennemført for Kvalitets- og Til- synsstyrelsen i et samarbejde mellem DAMVAD og professor emeritus ved Københavns Universitet, cand.stat. Svend Kreiner. 1.1 Hovedkonklusioner Nedenfor opsummeres analysens hovedkonklusio- ner: 1. Der er en tydelig sammenhæng mellem resul- taterne fra de nationale test og resultaterne fra PISA-undersøgelserne. Sammenhængen kan observeres på tværs af profilområder i både læs- ning og matematik, men er ikke nødvendigvis jævnt fordelt. Analyserne viser, at der er en statistisk robust sam- menhæng mellem, hvordan eleverne klarer sig i de nationale test, og hvordan eleverne klarer sig i PISA-undersøgelserne. Dette betyder, at der er en høj grad af overensstemmelse imellem, hvilke kate- gorier eleverne indplaceres i i henholdsvis de natio- nale test og PISA. Elever, der indplaceres i de la- vere kategorier i de nationale test som utilstrækkelig og mangelfuld, vil som regel også være indplaceret i de laveste kategorier i PISA-undersøgelserne, hhv. under 1b, 1a, 1 og 2. Sammenhængen mellem resultaterne fra de nationale test og PISA-undersø- gelserne er især stærk for elever, der klarer sig min- dre godt. I de nationale test måles elevernes niveau i læsning og matematik ud fra tre såkaldte profilområder in- den for begge testfag. Analysen viser, at elevernes præstationer i PISA-undersøgelsen for læsning stemmer bedst overens med præstationerne inden for “tekstforståelse” i de nationale test. Når det kom- mer til matematik, er sammenhængen mellem PISA-undersøgelsen og profilområderne “tal og al- gebra”, “geometri” og “matematik i anvendelse” mere jævnt fordelt med en svag overvægt for “ma- tematik i anvendelse”. Den tydelige sammenhæng mellem resultaterne fra de nationale test og PISA betyder samtidig, at de to test uafhængigt af hinanden når til relativt ensly- dende vurderinger af elevers faglige niveauer. Det er en bekræftelse af, at de nationale test siger noget relevant om elevernes faglige niveau i de områder, hvori de testes. 2. Køn, herkomst og socioøkonomisk status samt sen eller normal skolestart har betydning for re- sultaterne i de nationale test og i PISA-undersø- gelserne. Endvidere bliver forudsigelserne af re- sultaterne i PISA-undersøgelserne mere præ- cise, hvis man tager højde for oplysninger om ele- vens baggrund. Oplysninger om elevens baggrund som køn, her- komst og socioøkonomisk status samt sen eller nor- mal skolestart har en betydning for resultaterne i de nationale test og i PISA-undersøgelserne. Generelt påvirker baggrundsvariablene elevernes gennem- snitlige resultater på samme måde i de to test. F.eks. opnår piger i gennemsnit bedre testresultater i læsning, mens drenge i gennemsnit opnår bedre testresultater i matematik i begge testsystemer. Det gælder dog, at nationale test foretages på et be- stemt klassetrin, hvorimod PISA-undersøgelserne er rettet mod 15-16-årige elever uanset klassetrin. Dette betyder, at en sen eller normal skolestart sær- 6 PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM ligt får betydning for resultatet af PISA-undersøgel- serne, idet elever med en sen skolestart har haft et års mindre skolegang. Beregninger foretaget i Delrapport 2 viser samtidig, at de baggrundsvariable, der er nævnt ovenfor, også har en selvstændig betydning, når vi forsøger at forudsige PISA-resultatet på baggrund af elevens præstationer i de nationale test. Dette gælder sær- ligt køn, herkomst samt sen eller normal skolestart. Med andre ord hænger PISA-resultatet i læsning og matematik ikke kun sammen med elevernes resul- tater i de nationale test, men påvirkes også selv- stændigt af de nævnte baggrundsvariable. 3. Der kan fremover foretages en statistisk base- ret forudsigelse af, hvad en given elev vil score i en PISA-undersøgelse på baggrund af vedkom- mendes resultater fra den nationale test. Forudsi- gelser bygger på den statistiske model, der er op- stillet i projektet og tager også højde for oplysnin- ger om elevens baggrund1. Det er muligt på baggrund af en given elevs præsta- tion i de nationale test at komme med en statistisk baseret forudsigelse af, hvordan vedkommende vil klare sig i en PISA-undersøgelse. På baggrund af resultaterne fra et enkelt profilområde inddelt i kate- gorier kan de gennemsnitlige PISA-resultater (med begrænset præcision) forudsiges. Man kan ligele- des (med langt højere præcision) forudsige resulta- terne i læsning og matematik ved at foretage en række beregninger på baggrund af matematiske modeller, der viser sammenhængen mellem de to test, ved at benytte baggrundsvariablene, køn, her- komst samt sen eller normal skolestart. 1 Det bør for en god ordens skyld tilføjes, at da formålet med PISA-under- søgelserne alene er at måle resultaterne for større grupper af elever, skal forudsigelserne kun anvendes på aggregeret niveau, som f.eks. landeni- Hvis vi f.eks. tager udgangspunkt i en dreng af dansk herkomst med normal skolestart, kan der på baggrund af disse oplysninger og hans resultater fra den nationale test foretages en statistisk baseret forudsigelse. Forestiller vi os, at hans testresultater i læsning i 8. klasse kan kategoriseres som god i “sprogforståelse”, god i “afkodning” og jævn i “tekst- forståelse”, vil forudsigelsen være, at han i en se- nere PISA-undersøgelse vil score omkring 465. Dette er lidt under middel i forhold til PISAs katego- riseringer. 1.2 Læsevejledning Den resterende del af rapporten er disponeret efter de tre hovedspørgsmål i analysen. I kapitel 2 viser vi, at der en sammenhæng mellem de nationale test og PISA-undersøgelserne, og gen- nemgår, hvordan denne ser ud. I kapitel 3 viser vi, hvilken rolle baggrundsvariable som køn, herkomst og socioøkonomisk status mv. og sen eller almindelig skolestart spiller for evnen til at forudsige testresultaterne. I kapitel 4 viser vi, hvordan vi kan forudsige PISA- undersøgelserne på baggrund af de nationale test. veau, og ikke for enkelte elever. Derudover gælder det, at den bagvedlig- gende statistiske model ikke kan anvendes til sammenligninger med andre lande, blandt andet på grund af mangel på sammenlignelige data. PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM 7 I det følgende kapitel sammenlignes først indplace- ringen af eleverne ud fra de nationale test, når man anvender de nye foreløbige kriterier med indplace- ringen af eleverne i forhold til de gamle normbase- rede mål. Dernæst vises, hvordan de kriteriebase- rede indplaceringer af elever relaterer sig til PISAs kategoriseringer. Dette gøres ved at se på, hvordan elever konkret har klaret sig i hver af de to test. En- delig vises sammenhængen mellem de forskellige profilområder inden for læsning og matematik (med og uden de kriteriebaserede resultater) og de tilsva- rende PISA-undersøgelser. 2.1 Indplacering af elever ud fra den normba- serede og den kriteriebaserede skala Som nævnt indledningsvis, er der tidligere i år (2014) blevet formuleret en række foreløbige krite- rier for præstationerne i de nationale test. Som det fremgår af tabel 2.1 og tabel 2.2, der viser resulta- terne for henholdsvis “tekstforståelse” og “matema- tik i anvendelse”, er der en fin sammenhæng mel- lem den nye kriteriebaserede og den gamle norm- baserede skala. Samtidig viser tabellerne, at de kri- teriebaserede resultater er velegnede til at sondre mellem de fagligt stærkeste og de fagligt svageste elever. Dette betyder, at de nye kriteriebaserede ka- tegorier styrker mulighederne for at differentiere mellem forskellige grupper af særligt dygtige og særligt svage elever. For “tekstforståelse” i 8. klasse (tabel 2.1) fordeles elever, som scorer blandt de laveste 10 pct. på den normbaserede skala, f.eks. i de tre laveste kriterie- baserede kategorier fra utilstrækkelig til jævn, med hovedparten i kategorien mangelfuld. For midter- gruppen, der er mellem 35 og 65 pct. på den norm- baserede skala, gælder det, at samtlige elever ind- placeres i den kriteriebaserede kategori god. Blandt de 10 pct. bedste elever på den normbaserede skala indplacerer knap 80 pct. sig i kategorien rigtig god, mens de resterende godt 20 pct. er i kategorien fremragende. For matematik i 6. klasse er der ligeledes en god sammenhæng mellem placeringen i kriteriebase- rede kategorier og elevernes resultater på den normbaserede skala. Det vises for profilområdet ”matematik i anvendelse” i tabel 2.2. 2 Sammenhænge i de nationale test og til PISA- undersøgelserne TABEL 2.1 Profilområde “tekstforståelse” i 8. klasse Kriteriebaseret skala Interval, normbaseret skala Utilstrækkelig Mangelfuld Jævn God Rigtig god Fremragende Total Op til 10 pct. 14,3 61,9 23,8 - - - 100 10 - 35 pct. - - 73,0 27,0 - - 100 35 - 65 pct. - - - 100,0 - - 100 65 - 90 pct. - - - 49,1 50,9 - 100 90 pct. og derover - - - - 78,3 21,7 100 Samlet fordeling 1,6 6,7 21,7 46,3 21,4 2,3 100 Kilde: Delrapport 2 – teknisk rapport og dokumentation. Note: Antal elever=7.112 Note: Kun elever, der både har deltaget i de nationale test og i PISA-undersøgelsen, indgår i opgørelsen 8 PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM Elever indplaceret i de forskellige normbaserede in- tervaller placeres i to kriteriebaserede kategorier. Blandt de svageste 10 pct. af eleverne placeres om- kring 2/3 af eleverne i mangelfuld, mens godt 1/3 placeres i utilstrækkelig. For gruppen fra 10 til 35 pct. er der ligeledes ca. 2/3 i mangelfuld, mens godt 1/3 placeres i jævn. Sammenlignet med “tekstfor- ståelse” i 8. klasse (tabel 2.1) er der således en ten- dens til, at eleverne i højere grad koncentreres i ka- tegorierne mangelfuld og god, mens jævn fanger ca. 20 pct. af eleverne. Afsnittet har dermed vist, at den normbaserede og den kriteriebaserede skala hænger fint sammen, og at de nye foreløbige kriteriebaserede kategorier er bedre til at nuancere forskelle blandt de svageste og stærkeste elever. De næste afsnit ser nærmere på sammenhængen mellem elevernes præstationer målt på den kriteriebaserede skala og PISA. Boks 2.1 De nationale test De nationale test (DNT) er it-baserede adaptive test, der si- den 2010 årligt er blevet afholdt i folkeskolen. Der er tale om i alt 10 obligatoriske test fordelt på fagene dansk (læs- ning), matematik, engelsk, geografi, biologi og fysik/kemi. Der testes i læsning på 2., 4., 6. og 8. klassetrin og i mate- matik på 3. og 6. klassetrin. Testenes funktion er først og fremmest at understøtte læ- rernes løbende evaluering af elevernes faglige niveau og derfor give en indikator på elevernes faglige niveau inden for hvert af de delområder, som hver test afdækker. Disse delområder kaldes profilområder. Hver af de nationale test består af tre profilområder. Eksempelvis er profilområ- derne i læsning sprogforståelse , afkod i g og tekst- forståelse . I matematik er de tal og algebra , geo etri og mamatik i anvendelse . Med den seneste folkeskolereform er det blevet besluttet, at resultaterne af de nationale test fremover skal gøres kri- teriebaserede. Det betyder, at de nationale test ikke læn- gere skal opgøres i forhold til landsgennemsnittet, men i forhold til fastlagte kriterier for, hvornår en elev f.eks. er god til geometri. Fremover vil elevernes præstationer in- den for hvert profilområde derfor kunne kategoriers som enten utilstrækkelig, mangelfuld, jævn, god, rigtig god eller fremragende. TABEL 2.2 Profilområde “matematik i anvendelse” i 6. klasse Kriteriebaseret skala Interval, normbaseret skala Utilstrækkelig Mangelfuld Jævn God Rigtig god Fremragende Total op til 10 pct. 34,5 65,5 - - - - 100 10 - 35 pct. - 63,9 36,1 - - - 100 35 - 65 pct. - - 28,8 71,2 - - 100 65 - 90 pct. - - - 97,7 2,3 - 100 90 pct. og derover - - - - 86,2 13,8 100 Samlet fordeling 5,6 32,5 19,5 35,4 6,1 0,9 100 Kilde: Delrapport 2 – teknisk rapport og dokumentation. Note: Antal elever=1.420 PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM 9 2.2 Sammenhængen mellem kriteriebaserede nationale test og niveauer i PISA-under- søgelserne Ud over de nationale test testes danske elever også i regi af OECD i de såkaldte PISA-undersøgelser. I dette afsnit belyses sammenhængen mellem de kri- teriebaserede nationale test og PISA-undersøgel- sen fra 2012. I PISA-undersøgelserne opdeles eleverne i ni- veauer fra 1 til 6 baseret på baggrund af det opnå- ede PISA-resultat. Der anvendes forskellige skæ- ringspunkter af niveauerne for matematik og læs- ning, ligesom der er forskellige niveauer i bunden af skalaen (f.eks. er niveau 1 opdelt i flere underni- veauer for læsning). PISA-undersøgelsen er nær- mere beskrevet i boks 2.2. Boks 2.2 PISA-undersøgelsen PISA er en verdensomspændende undersøgelse af kompe- tencer i matematik, læsning og naturfag. Testene udføres i OECD-regi med en række ikke-OECD-lande som samar- bejdspartnere. Første test var i år 2000, og de foretages hvert tredje år på 15-16-årige, der fortsat går i skole. Sene- ste test er udført i år 2012. Resultaterne opgøres i PISA- rapporterne på nationale niveauer og ikke på elev-, skole- eller regionalt niveau. Et resultat af en PISA-undersøgelse rapporteres typisk som en såkaldt PISA-score, der spænder i intervallet fra 0 til 1000. Gennemsnittet i OECD er derfor omkring (men ikke nødvendigvis lig) 500 for alle de tre testområder. PISA-sco- ren er beregnet ud fra værdier fra den Rasch-model, der ligger bag ved testene (se boks 4.1). Som en følge af denne statistiske model vil elevernes resultater koncentrere sig om de midterste værdier. Der er eksempelvis langt flere elever, der scorer mellem 400 og 500, end elever, der sco- rer mellem 600 og 700. Denne PISA-score kan oversættes til nogle på forhånd fast- satte kategorier i intervallet fra 1 til 6, evt. med underop- delinger af kategori 1 i 1b og 1a i læsning. Kriterierne for, hvilken PISA-score det kræver at opnå en bestemt kategori, varierer lidt fra område til område. Eksempelvis kræver det i PISA 2012 en score på 607 i matematik og 626 i læsning at opnå et elevresultat i kategori 5, og 669 i matematik og 698 i læsning for at opnå kategori 6. Kategori 5 og 6 benævnes af PISA so top-perfor ers . PISA beteg er kategori 2 som et baseline-niveau for, hvad der skal til for at deltage effektivt og produktivt i livet . For at nå dette niveau skal eleven have scoren 420 i matematik og 407 i læsning. TABEL 2.3 Profilområdet “tekstforståelse” i 8. klasse i 2011–2012 sammenholdt med PISAs læseresultater fra 2012 PISA-kategori Kriteriebaseret skala, DNT <1b 1b 1a 2 3 4 5 6 Total Utilstrækkelig 10,5 26,3 26,3 28,9 5,3 2,6 - - 100 Mangelfuld 4,5 17,9 35,0 34,6 6,9 1,2 - - 100 Jævn 2,4 6,2 25,4 39,9 23,2 2,6 0,2 - 100 God 0,3 1,4 8,5 32,5 37,8 14,6 4,7 0,1 100 Rigtig god 0,1 0,2 1,5 12,1 36,1 38,2 10,3 1,4 100 Fremragende - - 1,0 3,1 15,6 47,9 31,3 1,0 100 Samlet fordeling 1,0 3,3 11,9 28,9 31,8 17,3 5,3 0,4 100 Kilde: Delrapport 2 – teknisk rapport og dokumentation. Note: Antal elever=4.156 Note: Elever under niveau 2 har i PISA-undersøgelsens terminologi “utilstrækkelige læsefærdigheder” 10 PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM I tabel 2.3 ses, at der er en stærk sammenhæng mellem placeringen i de kriteriebaserede kategorier i de nationale test for profilområdet “tekstforståelse” og placeringen i kategorierne for resultaterne af PISA-undersøgelsens læsetest. Da tendensen er den samme for alle tre profilområder, præsenteres her kun en tabel for “tekstforståelse”, som har den stærkeste korrelation med PISA. Tabeller for de re- sterende profilområder findes i Delrapport 2. Tabel 2.3. viser, at elever, som får den kriteriebase- rede score utilstrækkelig, fordeler sig i PISA-niveau- erne fra under 1b til 4, dog ligger størstedelen i 1b til 2. Det samme mønster gør sig gældende for ele- ver som får placeringen mangelfuld, hvor der dog er en større koncentration af eleverne, som placeres i PISA-niveauerne 1a og 2, og færre i de laveste ka- tegorier (1b og derunder). Elever, der placeres i kategorien rigtig god ud fra de kriteriebaserede nationale test indplaceres over hele spektret i PISA-niveauerne, men med en klar hovedvægt i kategorierne 3 og 4 i den efterfølgende PISA-test i læsning. Overordnet set viser tabel 2.3 dog stadig den fine sammenhæng, at de elever, som bliver placeret i de lave kategorier i de natio- nale test, også indplaceres i de lavere kategorier i PISA. Der kan være flere årsager til, at nogle elever scorer meget lavere – eller højere – i den efterfølgende PISA-undersøgelse i læsning, end indplaceringen på den kriteriebaserede skala ved den nationale test tilsagde. For det første kan det skyldes reelle bevægelser i elevernes faglige niveau, fordi der er en vis tidsforskel mellem gennemførsel af de to test. For det andet kan det skyldes forskelle i, hvad og hvordan der måles i de to test. Endelig er det vel- kendt, at elever nogle gang har en 'dårlig dag' på testningstidspunktet, og at testresultatet derfor ikke afspejler elevens egentlige faglige niveau. Det er i den sammenhæng betryggende, at der er så relativt få elever, som scorer 'helt ved siden af'. Det indikerer, at de to første forklaringsmuligheder formentligt ikke skal tillægges for meget vægt. Dette er vigtigt for muligheden for at forudsige et fremtidigt PISA-resultat på baggrund af resultaterne fra de na- tionale test, som vi vil se nærmere på i kapitel 4. TABEL 2.4 “Matematik i anvendelse” fra sene skolestartere 6. klasse i 2010 og PISAs matematikresultater for 2012 PISA-kategori Kriteriebaseret skala, DNT 1 2 3 4 5 6 Total Utilstrækkelig 85,4 7,3 2,4 4,9 - - 100 Mangelfuld 56,4 31,8 9,4 2,4 - - 100 Jævn 35,8 32,8 25,9 5,5 - - 100 God 20,2 34,1 27,7 16,0 2,0 - 100 Rigtig god 7,9 14,5 28,9 28,9 19,7 - 100 Fremragende 10,0 10,0 - 30,0 40,0 10,0 100 Samlet fordeling 35,9 30,5 20,5 10,4 2,5 0,1 100 Kilde: Delrapport 2 – teknisk rapport og dokumentation. Note: Antal elever=1.063. Niveau under 1 findes ikke matematik-testen. PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM 11 Der er den samme tendens mellem placeringen på den kriteriebaserede kategorisering af den natio- nale test i matematik i 6. klasse og PISAs matema- tiktest i 2012, som der var for læseområdet. I tabel 2.4 ses sammenhængen for profilområdet “mate- matik i anvendelse”. 2.3 Sammenhængen mellem PISA-resultater og de forskellige profilområder De nationale test i henholdsvis matematik og læs- ning består af hver tre profilområder, der måles for at vurdere elevernes præstation. Af pladshensyn vi- ste det ovenstående afsnit alene resultaterne for det profilområde med den stærkeste sammenhæng til PISA-resultatet. I dette afsnit illustreres sammen- hængen mellem hvert enkelt af de tre profilområder og det tilsvarende PISA-resultat i henholdsvis læs- ning og matematik. Sammenhængen illustreres ved hjælp af såkaldte korrelationskoefficienter, der på en skala fra 0 (in- gen sammenhæng) til 1 (perfekt lineær sammen- hæng) viser, hvor stor sammenhæng der er mellem profilområderne og det tilsvarende PISA-resultat. Jo højere korrelationskoefficienten er, desto større er sammenhængen. Det fremgår af tabel 2.5, at der er en stærkere sam- menhæng mellem profilområdet “tekstforståelse” og PISAs læsetest, end der er for de to andre profilom- råder, “sprogforståelse” og “afkodning”. Endvidere ses, at “tekstforståelse” også er mere korreleret med de to andre profilområder, end disse to er med hinanden. Dette resultat understøtter, at der er en konsistent sammenhæng mellem målingen af profil- områder i de nationale test og resultaterne i PISA- undersøgelsen. TABEL 2.5 Korrelation mellem værdier fra Rasch-modellen på profilområder i de nationale test og PISA-undersø- gelsen for læsning Sprog- forståelse Afkod- ning Tekst- forståelse PISA læsning Sprog- forståelse 1 0,55 0,61 0,46 Afkodning 1 0,62 0,49 Tekst- forståelse 1 0,62 PISA læsning 1 Kilde: Delrapport 2 – teknisk rapport og dokumentation. Note: Alle korrelationer er statistisk signifikante på et 1 pct. niveau. 7.118 elever har resultater for DNT og 5.156 for PISA. Af disse har 4.162 resul- tater for begge test. For matematik har profilområderne en lidt højere indbyrdes korrelation. Korrelationen til PISA er af nogenlunde samme styrke som for læsning, men korrelationerne er mere ensartede. Det fremgår af tabel 2.6, at “matematik i anvendelse” har den stør- ste korrelation til såvel de andre profilområder som til PISA-undersøgelsen. Dette billede er altså tilsva- rende, hvad vi så for læsning. TABEL 2.6 Korrelation mellem værdier fra Rasch-modellen på profilområder i de nationale test og PISA-undersø- gelsen for matematik. Tal og algebra Geo- metri Matematik i anvendelse PISA ma- tematik Tal og algebra 1 0,58 0,67 0,48 Geometri 1 0,62 0,51 Matematik i anvendelse 1 0,55 PISA matematik 1 Kilde: Delrapport 2 – teknisk rapport og dokumentation. Note: Alle korrelationer er statistisk signifikante på et 1 pct. niveau. 1.420 elever har resultater for DNT og 7.441 for PISA. Af disse har 1.063 resul- tater for begge test. Den store forskel skyldes, at det alene er sene skole- startere, der har DNT-data i matematik. Se i Delrapport 2 for uddybning. 12 PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM 2.4 Opsamling Dette kapitel har vist, er der en tydelig sammen- hæng mellem resultaterne fra de nationale test og PISA-undersøgelserne. Sammenhængen kan ob- serveres på tværs af profilområder i både læsning og matematik, men er dog generelt set lidt stærkere i matematik. I det følgende kapitel ses nærmere på, hvilken betydning baggrundsvariable som køn, her- komst, socioøkonomisk status og sen eller normal skolestart har for resultaterne i de nationale test og PISA-undersøgelserne. PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM 13 Dette kapitel ser nærmere på, hvilken betydning op- lysninger om elevens baggrund har for resultaterne i de nationale test og i PISA-undersøgelsen. Her- med får vi en indikation af, hvorvidt baggrundsvari- able som køn, herkomst, sen eller normal skolestart samt socioøkonomisk status kan bruges til at forud- sige PISA-resultatet på baggrund af resultaterne i de nationale test. 3.1 Baggrundsvariables gennemsnitlige be- tydning for nationale test og PISA Det er velkendt, at både køn, herkomst, socioøko- nomisk status samt sen eller normal skolestart har en betydning for elevernes præstationer i folkesko- len. Derfor er det ingen overraskelse, at dette også ses i resultaterne fra de nationale test og PISA-un- dersøgelserne. Tabel 3.1 viser de gennemsnitlige PISA-resultater fordelt på ovennævnte baggrunds- variable set i forhold til det samlede gennemsnit for de danske elever i testen. Som det fremgår af tabel- len, er der en tendens til, at drenge klarer sig lidt bedre end piger til matematik, mens piger i gennem- snit klarer sig bedre i læsning. Det ses endvidere, at elever af dansk herkomst i gennemsnit klarer sig en del bedre end elever med en anden herkomst både i matematik og læsning. Sene skolestartere, som er testet et klassetrin la- vere end normale skolestartere i PISA-undersøgel- serne, klarer sig ligeledes dårligere. Som mål for socioøkonomisk status er anvendt PI- SAs ESCS, der er et samlet indeks for socioøkono- misk status, som tager udgangspunkt i forældres uddannelse, beskæftigelse og et mål for besiddel- ser i hjemmet (økonomiske som kulturelle faktorer).2 I tabel 3.1 vises de gennemsnitlige PISA-resultater 2 Se PISA Results 2012: ”What Students Know and Can Do” (OECD, 2014). for de børn, som ligger blandt de øverste 20 pct., de midterste 20 pct. og de nederste 20 pct. på dette ESCS-indeks. Ikke overraskende ses det, at jo hø- jere socioøkonomisk status en elev har, desto bedre klarer vedkommende sig i PISA-undersøgelserne. Effekten af socioøkonomisk status er ganske bety- delig. TABEL 3.1 Effekt af baggrundsvariable på gennemsnitlige re- sultater i PISA-undersøgelserne PISA matematik PISA læsning Gennemsnitlig PISA-score i datasættet 489 487 Køn Dreng 494 476 Pige 484 498 Herkomst Dansk herkomst 506 503 Anden herkomst 442 442 Skole- start Sen 451 443 Normal 498 497 Socio- økono- misk sta- tus (PISA- ESCS) Høj (øverste 20 pct.) 532 527 Middel (midterste 20 pct.) 494 492 Lav (nederste 20 pct.) 449 447 Kilde: Delrapport 2 – teknisk rapport og dokumentation Note: Kun elever, der både har deltaget i de nationale test og i PISA-un- dersøgelsen, indgår i opgørelsen Note: Data om socio-økonomisk status stammer fra PISA (ESCS). Et tilsvarende mønster kan genfindes i resultaterne for de nationale test. Af tabel 3.2 fremgår, at retnin- gen for de forskellige baggrundsvariable er den samme som i PISA-undersøgelserne: Drenge har generelt bedre resultater på de tre matematiske pro- filområder, piger på to af de tre profilområder for 3 Betydningen af baggrundsvariable 14 PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM læsning, ligesom elever af dansk herkomst generelt har bedre resultater end de af anden herkomst osv. 3.2 Baggrundsvariables rolle i forudsigelse Som det fremgik af forrige afsnit, har baggrundsva- riablene stor betydning for såvel resultaterne i PISA- undersøgelserne som resultaterne i de nationale test. Et oplagt spørgsmål er derfor, om variablene påvirker resultaterne lige kraftigt? Dette har en stor betydning for, hvordan en statistisk baseret forudsi- gelsesmodel, der relaterer resultater fra de natio- nale test til PISA-resultaterne, skal tage sig ud. Er effekten helt ensartet i de to test, vil baggrunds- variablene ikke bidrage med yderlige forklarings- kraft, når PISA-resultaterne skal forudsiges ved TABEL 3.2 Betydningen af baggrundsvariable i de nationale test illustreret ved det gennemsnitlige resultat på hvert profilområde for forskellige grupper af elever -------- Matematik ---------- --------- Læsning -------- Profilområde Gennemsnit for: Antal elever Tal og algebra Geometri Matematik i anvendelse Antal elever Tekst- forståelse Sprog- forståelse Afkod- ning De nationale test (i det anvendte data) 1.420 15,0 15,6 14,1 7.118 26,6 15,7 24,5 Køn* Dreng 670 16,0 16,3 15,0 3.038 26,7 16,2 24,8 Pige 399 14,7 15,4 13,7 3.029 27,7 15,8 25,1 Herkomst Dansk herkomst 687 16,1 16,8 15,2 4.459 28,6 16,8 25,7 Anden herkomst 382 14,4 14,3 13,3 1.608 23,5 13,8 23,0 Skolestart Sen - - - 1.508 24,2 14,5 23,1 Normal - - - 5.610 27,3 16,0 24,9 Socioøkonomisk status (målt ved PISA ESCS) Høj (top 20 pct.) 106 17,3 18,5 16,3 1.093 31,0 18,0 26,5 Middel (20 pct.) 188 16,0 16,1 14,9 1.210 27,3 16,2 25,1 Lav (bund 20 pct.) 311 14,2 14,8 13,2 1.224 23,9 13,8 23,4 Kilde: Delrapport 2 – teknisk rapport og dokumentation. Note: *Da der mangler oplysninger om køn, herkomst, skolestart og socioøkonomisk status for en række elever, indgår disse ikke i beregningen af gennemsnitsresultatet fordelt på disse baggrundsvariable. De indgår dog i beregningen af det samlede gennemsnitlige resultat. For opdelingen på køn betyder det, at det gennemsnitlige resultat for såvel drenge som piger er højere end landsgennemsnittet. Samme problem gør sig gældende for herkomst, skolestart og socioøkonomisk status, men problemet er ikke på samme måde tydeligt for disse variable, da det samlede gennemsnit falder mellem de to gennemsnit for baggrundsvariablene. Note: De gennemsnitlige kriteriebaserede scorer for matematik bygger alle på resultater for elever med sen skolestart. Det følger heraf, at cellerne for matematik med normal og sen skolestart er tomme (og gennemsnittet for de med sen skolestart er det fra de nationale test i øverste række). PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM 15 hjælp af de nationale test. Er effekten derimod for- skellig, vil baggrundsvariablene bidrage til forudsi- gelsen af PISA-resultaterne, ud over hvad resulta- terne i de nationale test kan forklare. Som det frem- går af det følgende kapitel, er baggrundsvariablene vigtige, for at den statistiske model så præcist som muligt kan forudsige et PISA-resultat på baggrund af resultaterne i de nationale test. Dette kan grundlæggende skyldes to forhold: 1) at baggrundsvariablene af forskellige årsager påvirker resultaterne i de nationale test mere eller mindre end resultaterne i PISA-undersøgelserne, og/eller 2) at baggrundsvariablene påvirker den faglige ud- vikling, der er sket for eleven, fra de nationale test er gennemført, til at PISA-undersøgelserne foreta- ges – altså med andre ord forskelle i, hvor stort ud- bytte der opnås af skolegangen, imellem de to test foretages. Med det nuværende datagrundlag er det ikke muligt at undersøge nærmere, hvilken forkla- ring der dominerer, og det er heller ikke af særskilt interesse i denne rapport. I forhold til en model, der relaterer de nationale test til PISA-undersøgelserne, kan vi blot konstatere, at baggrundsvariablene bi- drager til modellens præcision og dermed til evnen til at forudsige et PISA-resultat på baggrund af re- sultater fra de nationale test. 3.3 Opsamling I dette kapital har vi vist, at køn, herkomst og socio- økonomisk status samt sen eller normal skolestart har betydning for de gennemsnitlige resultater i de nationale test og i PISA-undersøgelserne. Bereg- ninger på den statistiske model, der er foretaget i Delrapport 2 viser, at når der er kontrolleret for køn, herkomst og sen/normal skolestart, så bidrager den socioøkonomiske variabel ESCS kun med en be- grænset forklaringskraft til modellen. Da det samti- dig er en variabel, der kommer fra PISA-undersø- gelserne, og derfor ikke er tilgængelig fra de natio- nale test, er denne variabel ikke medtaget i den fo- retrukne statistiske model til forudsigelse af PISA- resultater på baggrund af de nationale test, som præsenteres i det følgende kapitel. 16 PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM Som det fremgik af kapitel 2, er det muligt at sam- menligne resultaterne fra de nationale test med re- sultaterne fra PISA-undersøgelserne. Der er såle- des generelt set overensstemmelse mellem elever- nes testresultater i de to test. Spørgsmålet, der be- svares i dette kapitel er derfor, hvordan vi fremover kan forudsige PISA-resultaterne ud fra resultater i de nationale test og oplysninger om elevens bag- grund? 4.1 Den statistisk baserede model Det tekniske grundlag for at kunne forudsige PISA- resultaterne bygger på beregninger foretaget i Del- rapport 2. Både de nationale test og PISA-undersø- gelserne er baseret på en “Rasch-skala”, hvorfra de oprindelige testresultater konverteres til en ny skala, hvor elevernes præstationer kan opdeles i katego- rier. Rasch-modellen er nærmere beskrevet i ne- denstående boks. Boks 4.1 Rasch-modellen Rasch-modellen er en statistisk model udviklet af den danske matematiker Georg Rasch omkring 1960. Modellen bruges til analyse af ’duelighedstest’, f.eks. intelligenstest eller spørge- skemaer, der måler folks holdninger til et givent emne. Rasch-modellen er en sandsynlighedsmodel. Et særligt ken- detegn ved den er sammenhængen mellem elevernes dygtig- hed og opgavernes sværhedsgrad, som beregnes på samme skala. Sværhedsgraden af en opgave defineres som lig med dygtigheden af den elev, der har præcis 50 procent sandsyn- lighed for at svare korrekt. Både PISA og de nationale test benytter Rasch-modellen til at beskrive effekten af elevernes dygtighed på svarene på spørgsmålene i de pædagogiske test. I modellen måles elevernes færdigheder på såkaldte logit- skalaer. Man kan derfor tale om en “PISA-logit” for matematik og læsning og en “logit-værdi” for hver profilområder i de nati- onale test. En af fordelene ved logit-skalaer er, at de har in- tervalskalaegenskaber. Det er derfor værdier på disse ska- laer, som er blevet anvendt i forbindelse med forudsigelserne af, hvad en given elev scorer i en PISA-undersøgelse. I Delrapport 2 kan man læse mere om Rasch-modellen, og hvordan den finder anvendelse i forbindelse med de nationale test og PISA-undersøgelserne. Indholdsmæssigt er der ikke større forskel på en “Rasch-skala” og de skalaer, som de nationale test og PISA-undersøgelserne anvender, end der er på Celsius og Fahrenheit. Begge skalaer fortæller, hvad temperaturen er. På samme måde viser både et resultat målt på “Rasch-skalaen” og PISAs egen skala, hvor god en elev er til f.eks. læsning. Imidlertid viser beregninger foretaget i Delrapport 2, at resultaterne i de nationale test og i PISA-under- søgelserne hænger lineært sammen, hvis man må- ler dem på “Rasch-skalaen”. Der kan derfor med fordel opstilles en lineær regressionsmodel, der be- skriver den matematiske sammenhæng med ud- gangspunkt heri. Boks 4.2 Regressionsmodellerne for læsning og matematik Med udgangspunkt i Rasch-modellen kan der opstilles en re- gressionsmodel for de forventede resultater i PISA-undersø- gelsen for henholdsvis matematik og læsning. Modellerne vi- ser sammenhængen mellem logit-værdierne for de tre profil- områder i enten læsning eller matematik og den forventede PISA-logit givet ved oplysningerne om elevens baggrund. Modellen for læsning er givet ved: 𝑷𝑰 𝑨 = − , + , ∗ + , ∗ 𝑨 + , ∗ − , ∗ ø − , ∗ 𝒆 + , ∗ 𝒆 𝒂 hvor PISAL er resultatet af læsning i PISA-målingen, S er re- sultatet af “sprogforståelse” i den nationale test, A er resulta- tet af “afkodning” i den nationale test, og T er resultatet af “tekstforståelse” i den nationale test (R2 =0,442). Modellen for matematik er givet ved: 𝑷𝑰 𝑨 = − , + , ∗ + , ∗ 𝑮 + , ∗ 𝑨 + , ∗ ø − , ∗ 𝒆 + , ∗ 𝒆 𝒂 hvor PISAM er resultatet af læsning i PISA-undersøgelsen, T er resultatet af “tal og algebra” i den nationale test, G er re- sultatet for “geometri” i den nationale test, og A er resultatet for “matematik i anvendelse” i den nationale test (R2 =0,412). For begge modeller gælder det, at “køn” er 1 for dreng og 0 for pige; “herkomst” er 1, hvis der er tale om en elev med an- den etnisk herkomst end dansk, og 0, hvis eleven er etnisk dansk af herkomst; “skolestart” er 1, hvis eleven har en sen skolestart, og 0, hvis eleven har haft en normal skolestart. 4 Forudsigelse af PISA-resultater på baggrund af de nationale test PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM 17 Indtil videre er der kun blevet set på sammenhæn- gen ud fra et profilområde ad gangen eller på den gennemsnitlige forskel på f.eks. drenges og pigers præstationer i de to test. Med en statistisk baseret model stilles et mere præcist spørgsmål, der benyt- ter alle oplysningerne på et og samme tidspunkt til at forudsige, hvad resultatet af en PISA-undersø- gelse vil blive. 4.2 Sammenhæng mellem PISA-resultater og de nationale test Antag, at der foreligger testresultater fra de natio- nale test i læsning i 8. klasse, og der ønskes et bud på, hvor eleven vil placere sig, hvis eleven senere skulle deltage i en PISA-undersøgelse. Udgangspunktet kunne f.eks. være, at der var tale om en etnisk dansk dreng med normal skolestart. Forestiller vi os, at den pågældende elevs testresul- tater kan kategoriseres som god i “sprogforståelse”, god i “afkodning” og jævn i “tekstforståelse”, kan vi forvente, at han i en senere PISA-undersøgelse vil score omkring 465, givet at hans scorer i den natio- nale test ligger midt i kategorierne. Dette svarer til niveau 2 i PISAs kategoriseringer i 2012, som går fra 407 til 480. For at benytte regressionsmodellen for læsning i det konkrete tilfælde er det nødvendigt at omregne vær- dierne fra den skala, der anvendes i de nationale test, til “Rasch-skalaen”. Vi bliver med andre ord nødt til at gå fra Celsius til Fahrenheit. Dette er mu- ligt, da vi i Delrapport 2 har udviklet en række meto- der, der bruges til at omregne testværdier fra én skala til en anden. Når regressionsmodellerne skal bruges i virkelighe- den, vil processen i praksis ikke starte med, at sco- ren fra den nationale test omregnes til en værdi på “Rasch-skalaen”. Testresultater fra de nationale test og PISA-undersøgelserne beregnes altid først på “Rasch-skalaen” og konverteres derefter til skalaer, der er lettere at tolke på. Boks 4.3 beskriver, hvor- dan værdier målt på “Rasch-skalaen” omregnes til PISA-scorer. Boks 4.3 Omregning af logit-værdier til PISA-scorer For at kunne gennemskue, hvordan et testresultat målt på “Rasch-skalaen” skal tolkes, kan det blive nødvendigt at kon- vertere en række værdier fra én skala til en anden. I Delrap- port 2 er derfor udarbejdet funktioner, som kan konvertere lo- git-værdier fra PISA-undersøgelserne til PISA-scorer, der er lettere at tolke på. For sammenhængen mellem testresultater målt på “Rasch- skalaen” og de scorer, som PISA anvender i egne målinger i henholdsvis læsning og matematik, benyttes følgende funkti- oner: 𝑷𝑰 𝑨 = , + , ∗ – , ∗ 𝑷𝑰 𝑨 = , + , ∗ – , ∗ hvor “logit” angiver logit-værdien målt på “Rasch-skalaen”. I Delrapport 2 kan man læse mere om funktionerne, og hvor- dan det rent teknisk er muligt at opstille en matematisk formel herfor. Endvidere bør det bemærkes, at PISA-undersøgel- serne ikke har til hensigt at måle den enkelte elevs præstationer, hvorfor forudsigelserne i praksis også vil fokusere på den samlede population af elever omfattet af begge test. 4.3 Eksempler på modellens forudsigelser For at give et mere nuanceret billede af, hvordan modellens forudsigelser fungerer, kan det være nyt- tigt at tage udgangspunkt i to illustrative eksempler, selvom forudsigelserne i praksis vil have fokus på grupper af elever og ikke den enkelte elev. Første eksempel Aisha er 13 år og går i 6. klasse. Aisha er af anden herkomst end dansk og begyndte i skole et år se- nere end normalt. I den nationale test i matematik 18 PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM klarede Aisha sig ud fra de kriteriebaserede katego- rier som følger: jævnt i “tal og algebra”, mangelfuldt i “geometri” og mangelfuldt i “matematik i anven- delse”. På baggrund ovenstående beskrivelse kan vi for- vente, at Aisha ca. to år senere vil score omkring 290 i PISA-undersøgelsen i matematik. Dette svarer til niveauet “under 1” i PISAs kategorisystem. Da PISA-målingen i matematik er rettet mod 15-16 årige elever, vil Aisha gå i 8. klasse, på det tidspunkt testen gennemføres. FIGUR 4.1 Eksempel på forventede ændringer i PISA-resulta- tet i matematik Forventet PISA-score Person fra eksemplet (Aisha) 290 Ændring fra eksemplet Forventet ændring (+/-) DNT-resultater Tal og algebra Jævn -> god +14 Geometri Mangelfuld -> god +40 Matematik i anvendelse Mangelfuld -> rigtig god +99 Alle 3 profilområder -> Rigtig god +183 Baggrundsvariable Køn Pige -> dreng +13 Skolestart Sen -> normal +41 Etnicitet Anden herkomst -> dansk +45 Kilde: Delrapport 2 – teknisk rapport og dokumentation. I tabel 4.1 er vist, hvordan det forventede resultat i PISA-undersøgelsen i matematik vil ændre sig, hvis vi ændrer på Aishas præstationer i den nationale test. Af tabellen fremgår også, hvilke ændringer vi kan forvente, hvis vi ændrer på oplysninger om Aishas baggrund - altså hvis hun f.eks. havde været en dreng eller af dansk herkomst. Tabellen tager udgangspunkt i den score, som Aisha ifølge modellen for matematik statistisk set ville opnå. Herfra viser tabellen, hvor meget denne score påvirkes af, at der ændres på oplysninger fra eksemplet (“Forventet ændring”). Som vi kan se af tabellen, er de baggrundsvariable, der betyder mest for resultatet af Aishas forventede PISA-score i matematik, den sene skolestart og spørgsmålet om herkomst. Andet eksempel Jesper er 14 år, dansk af herkomst og går i 8. klasse. Jesper begyndte i skole som normalt. I den nationale test i læsning klarede Jesper sig ud fra de kriteriebaserede kategorier som følger: Rigtig godt i “sprogforståelse”, godt i “afkodning” og godt i “tekst- forståelse”. På baggrund af ovenstående beskrivelse kan vi for- vente, at Jesper ca. et år senere vil score omkring 506 i PISA-undersøgelsen i læsning. Dette svarer til niveau 3 i PISAs kategorisystem. Da PISA-under- søgelsen i læsning er rettet mod 15-16 årige elever, vil Jesper gå i 9. klasse, på det tidspunkt testen gen- nemføres. I tabel 4.2 er vist, hvordan det forventede resultatet i PISA-undersøgelsen i læsning vil ændre sig, hvis vi ændrer Jespers præstationer i den nationale test og oplysninger om hans baggrund. Ligesom for Aisha er det også tidspunktet for skole- starten og spørgsmålet om herkomst, der er de bag- grundsvariable, som betyder mest for den forven- tede PISA-score i læsning for Jesper. De nævnte variable påvirker dog i højere grad Aishas matema- tik-score end Jespers score i læsning. PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM 19 TABEL 4.2 Eksempel på forventede ændringer i PISA-resulta- tet i læsning Forventet PISA-score Person fra eksemplet (Jesper) 506 Ændring fra eksemplet Forventet ændring (+/-) DNT-resultater Sprogforståelse Rigtig god -> fremragende +10 Afkodning God -> mangelfuld -17 Tekstforståelse God -> fremragende +72 Alle 3 profilområder -> Jævn -70 Baggrundsvariable Køn Dreng -> pige +13 Skolestart Normal -> sen -27 Etnicitet Dansk -> anden herkomst -22 Kilde: Delrapport 2 – teknisk rapport og dokumentation. Boks 4.4 Eksempel på forudsigelser på baggrund af intervaller Som beskrevet i denne rapport, er den mest præcise måde, hvorpå man kan forudsige et PISA-resultat, at opstille stati- stisk baserede modeller, der benytter alle relevante oplysnin- gerne på et og samme tidspunkt. Modellerne kan også give indblik i, hvordan eleverne inden for et bestemt interval af logit-værdierne for et bestemt profil- område forventes at klare sig i en senere PISA-undersø- gelse. Sådanne beregninger giver muligheder for mere enkle fremstillinger af relationen mellem profilområder og PISA-re- sultater, men forudsigelserne er selvsagt upræcise og usikre, idet de både inkluderer oplysninger fra de andre profilområ- der og oplysninger om elevens baggrund. Nedenstående tabel viser således et eksempel på, hvilke re- sultater i PISA-undersøgelsen i læsning der kan forventes in- den for bestemte intervaller i de nationale test for “sprogfor- ståelse”. Tabellen viser intervallerne som logit-værdier målt på “Rasch-skalaen” og de dertilhørende forventede PISA-scorer. I parentesen ud for PISA-scoren er endvidere angivet det PISA-niveau, som scoren placerer sig indenfor. Forventede PISA-scorer på baggrund af opnået testresultat i “sprogforståelse” i de nationale test i 8. klasse Sprogforståelse (logits) Forventet PISA-score -4 til -3 253 (niveau <1b) -3 til -2 345 (niveau 1a) -2 til -1 394 (niveau 1a) 1 til 0 442 (niveau 2) 0 til 1 490 (niveau 3) 1 til 2 526 (niveau 3) 2 til 3 537 (niveau 3) 3 til 4 534 (niveau 3) Kilde: Delrapport 2 – teknisk rapport og dokumentation. 20 PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM 4.4 Forudsigelser på baggrund af en samlet kriteriebaseret kategorisering De nationale test giver et mere nuanceret billede af elevernes færdigheder end PISA-undersøgelserne. Resultatet af de nationale test består således af en 'elev-profil' med oplysninger om, hvordan eleven har klaret sig inden for tre forskellige profilområder. I modsætning hertil giver PISA-undersøgelsen kun en samlet score for elevens færdigheder i henholds- vis læsning og matematik. Forudsigelser af PISA-resultaterne forudsætter, at der tages højde for alle tre profilområder på et og samme tidspunkt. Med andre ord udnyttes, at de na- tionale test giver et mere nuanceret billede til at for- bedre forudsigelserne. Imidlertid vanskeliggør denne metode formidlingen, da 'elev-profilerne' om- fatter mange forskellige kombinationer af resultater profilområderne imellem. For at råde bod herpå, viser tabel 4.3 og 4.4 de for- ventede PISA-resultater i forhold til en samlet krite- riebaseret kategorisering, som er defineret i neden- stående boks. Boks 4.5 En samlet kriteriebaseret kategorisering Testresultatet opfattes som: “Fremragende”, hvis præstationen har været fremragende på mindst 2 ud af tre profilområder og mindst god i det tredje. “Rigtig god”, hvis præstationen har været rigtig god eller bedre på mindst 2 ud af tre profilområder og mindst jævn i det tredje. “God”, hvis præstationen har været god eller bedre på mindst 2 ud af tre profilområder og mindst mangelfuld i det tredje. “Jævn”, hvis præstationen har været jævn eller bedre i mindst 2 ud af tre profilområder. “Mangelfuld”, hvis præstationen har været mangelfuld eller bedre i mindst 2 ud af tre profilområder. “Ikke tilstrækkelig”, hvis præstationen har været utilstrækkelig på to eller tre profilområder. Kilde: Kategoriseringen er foreslået af Kvalitets- og Tilsynsstyrelsen Da der er gradsforskelle inden for hver af de sam- lede kriteriebaserede kategorier (og da der også er andre forhold, der har betydning for resultatet af en PISA-undersøgelse), kan der forventes flere for- skellige PISA-niveauer til hver kategori. Der er i de fleste tilfælde tale om et eller højst to dominerende PISA-niveauer til hver kriteriebaserede kategori. Tabellerne viser det PISA-niveau, som det forven- tes, at flest elever (se procentsats) vil placere sig indenfor, på baggrund af en samlet kriteriebaseret kategorisering for henholdsvis læsning (tabel 4.3) og matematik (tabel 4.4). Resultaterne vises sær- skilt for elever med sen og normal skolestart, idet PISA-resultatet som illustreret i forrige afsnit særligt afhænger af, om eleven testes af PISA i 8. eller 9. klasse. TABEL 4.3 Forudsigelse af PISA-resultatet i læsning ud fra en samlet kriteriebaseret kategorisering DNT-kategori Sene skolestartere Normale skolestartere Fremragende 4 (44 %) 4 (76 %) Rigtig god 3 (73 %) 3 (71 %) God 2 (78 %) 3 (61 %) Jævn 1a (64 %) 2 (85 %) Mangelfuld 1a (56 %) 1a (70 %) Ikke tilstrækkelig <1b (78 %) 1b (67 %) Kilde: Delrapport 2 – teknisk rapport og dokumentation. Note: Parentesen angiver, hvor mange pct. af eleverne der forventes at opnå det pågældende PISA-resultat på baggrund af den samlede kriterie- baserede kategorisering. Af tabel 4.3 ses, at der er god overensstemmelse mellem den samlede kriteriebaserede kategorise- ring for læsning og de forventede PISA-resultater for både sene og normale skolestartere. Det ses dog også af både tabel 4.3 og 4.4, at det samme PISA-niveau kan forventes at være det hyppigst fo- rekommende resultat inden for flere kategorier. PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM 21 TABEL 4.4 Forudsigelse af PISA-resultatet i matematik ud fra en samlet kriteriebaseret kategorisering DNT-kategori Sene skolestartere Normale skolestartere Fremragende 4 (67 %) 5 (90 %) Rigtig god 3 (67 %) 4 (75 %) God 3 (49 %) 3 (77 %) Jævn 2 (73 %) 2 (62 %) Mangelfuld 1 (79 %) 2 (59 %) Ikke tilstrækkelig 1 (100 %) 1 (100 %) Kilde: Delrapport 2 – teknisk rapport og dokumentation. Note: Parentesen angiver, hvor mange pct. af eleverne der forventes at opnå det pågældende PISA-resultat på baggrund af den samlede kriterie- baserede kategorisering. Forudsigelserne af PISA-undersøgelsen i mate- matik for normale skolestartere baserer sig på modelberegninger, idet testresultaterne fra DNT ikke er tilgængelige for disse elever. Af tabel 4.4 ses, at der også for matematik kan ob- serveres en god overensstemmelse mellem de for- ventede PISA-resultater og den samlede kriterieba- serede kategorisering. Både i matematik og læsning gør det sig også gæl- dende, at de forventede PISA-resultater for de nor- male skolestartere generelt set er bedre. F.eks. for- ventes 90 pct. af de normale skolestartere, hvis præstation ud fra den samlede kriteriebaserede ka- tegorisering kan betegnes som fremragende, at opnå PISA-niveauet 5 i matematik. For de sene sko- lestartere forventes det mest hyppige resultat (67 pct.) ud fra en tilsvarende præstation i den nationale test for matematik at være PISA-niveau 4. 4.5 Opsamling Dette kapitel har vist, hvordan det fremover er mu- ligt at foretage en statistisk baseret forudsigelse af, hvordan en given elev vil score i en PISA-undersø- gelse på baggrund af vedkommendes resultater fra den nationale test og oplysninger om elevens bag- grund. Endvidere er der givet eksempler på, hvor- dan forudsigelserne fungerer. Såfremt man er interesseret i at læse mere om un- dersøgelsens tekniske baggrund, henvises læseren til Delrapport 2. Boks 4.6. Rapportens datagrundlag Datagrundlaget for analyserne i denne rapport består af re- sultater fra de nationale test i matematik og læsning i 6. klasse i 2010 og læsning i 8. klasse fra 2011 og 2012 samt testresultater i læsning og matematik fra PISA 2012. Datamaterialet omfatter resultaterne fra de nationale test, så- fremt disse forelå fra de elever, der deltog i PISA i 2012. De fleste af de elever, der deltog i PISA i 2012 gik i 6. klasse i 2009 og 2010. Idet der kun foreligger de nationale testresul- tater fra 6. klasse i 2010 og fra 8. klasse i 2012, da de blev testet af PISA, har det været nødvendigt at estimere effekten af undervisningen i 9. klasse, som de fleste PISA-elever havde modtaget, for at kunne opstille en statistisk model til forudsigelse. Ud over testresultater fra de nationale test ligger oplysnin- gerne om elevens køn, herkomst, alder og socioøkonomiske status også til grund for analyserne. Klarabergsviadukten 63, SE-101 23 Stockholm Badstuestræde 20 DK-1209 Copenhagen K Grensen 13 N-0159 Oslo 22 PISA-RELATERING AF DE KRITERIEBASEREDE NATIONALE TEST | DAMVAD.COM
Bilag 2- De nationale tests måleegenskaber.pdf
https://www.ft.dk/samling/20181/spoergsmaal/S744/svar/1573649/2044438.pdf
De nationale tests måleegenskaber September 2016 2018-19 S 744 endeligt svar Offentligt 2 • De nationale tests måleegenskaber De nationale tests måleegenskaber BAGGRUND De nationale test blev indført i 2010 for at forbedre evalueringskulturen i folkeskolen. Hensigten var bl.a. at give lærerne et bedre indblik i elevernes faglige niveauer gennem deres skoletid – også set i forhold til det faglige niveau blandt resten af landets elever. Tidligere var det folkeskolens afgangsprøve, der var den primære kilde til viden om elevernes faglige niveauer set i forhold til resten af landet. Testene udgør et blandt flere værktøjer, som kan bidrage til, at læreren får overblik og kan vurdere elevernes udbytte af undervisningen. Da det ikke er alle områder af fagene, der kan eller skal testes med de nationale test, kan testresultaterne ikke stå alene i evalueringen af eleverne. Resultaterne kan også bidrage til skole-hjem- samarbejdet. Der er ti obligatoriske test á 45 minutters varighed i løbet af elevernes skoletid. Disse er fordelt på seks forskellige fag og seks forskellige klassetrin. Fire af de ti test er i dansk, læsning på fire forskellige klassetrin og to af testene er i matematik. Alle test består af tre profilområder, som afgrænser de områder af faget, som eleverne testes i. HVAD ER AFGØRENDE FOR TESTENES MÅLEEGENSKABER? Hvor god en test er til at vurdere elevernes faglige niveau i et område af faget af- hænger blandt andet af den tid, der er afsat til at afvikle testen. Jo længere tid eleverne testes, jo flere opgaver – og dermed bedre grundlag – er der til at bedømme elevens faglige niveau ud fra. Omvendt kan særligt de yngre elever blive trætte og ukoncentrerede, hvis testene varer for længe. De nationale test varer som udgang- spunkt 45 minutter. De nationale test bygger på en adaptiv algoritme, som løbende tilpasser opgavernes sværhedsgrader til den enkelte elevs niveau. Det betyder, at eleven starter med en middelsvær opgave, og hvis eleven svarer korrekt, er den næste opgave lidt sværere. Hvis eleven svarer forkert, er den næste opgave lidt lettere. Det fortsætter, indtil elevens faglige niveau er bestemt med en vis sikkerhed. Metoden optimerer testenes måleegenskaber og gør det muligt at opnå en vurdering af elevens faglige niveau med størst mulig sikkerhed inden for rammerne af en typisk lektion på 45 minutter. 3 • De nationale tests måleegenskaber Fakta – sådan bliver opgaverne til Opgaverne til de nationale test bliver udviklet af faglige opgavekommissioner, der er nedsat inden for hvert fag. Her udvikler fagfolk opgaver, der har høj kvalitet og er tilpasset de områder af faget, som testes. Opgaverne bliver udviklet på baggrund af de Fælles Mål, der er fastsat inden for faget. I testene inddrages kun de områder af Fælles Mål, som kan testes inden for rammerne af it-baseret og selvrettende test. De nationale test trækker på spørgsmål fra en stor opgavebank, men inden opgaver- ne finder vej til den, bliver de afprøvet på ca. 700 elever. Her gennemgår opgaverne en omfattende statistisk analyse, som både vurderer, om opgaverne måler på det, de skal, og som konsoliderer den enkelte opgaves sværhedsgrad. Når det er sket, kom- mer opgaverne ind i opgavebanken, som løbende bliver opdateret for at sikre, at der er tilstrækkelige opgaver på alle sværhedsgrader. DEBAT OM NATIONALE TEST Den debat, der har været om de nationale tests måleegenskaber, har hovedsageligt drejet sig om tre spørgsmål: • Måler testene det, de skal? • Hvor god er testen til at vurdere den enkelte elevs faglige niveau? • Måler testene det samme, når de måler eleverne to gange i træk? Nedenfor vil de tre spørgsmål blive kommenteret. Der er særligt lagt vægt på at kommentere og illustrere via fagene dansk læsning og matematik, da det er i de fag, at eleverne testes flest gange i løbet af skoletiden. MÅLER TESTENE DET, DE SKAL? Et af de kritikpunkter, der har været af de nationale test, har gået på, at testene måler for snævert i forhold til de færdighedsområder, det er meningen, at de skal måle på. Der testes alene i færdigheder, som det er muligt at afprøve i en it-baseret og selvrettende test. Derfor bør testresultaterne aldrig stå alene i evalueringen af elevernes undervisningsudbytte. Hver test tester i tre faglige områder, de såkaldte profilområder. For eksempel består testen i dansk læsning af en test i sprogforståelse, en test i afkodning og en test i tekstforståelse. Det er altså kun dele af faget, eleven bliver testet i, og det gør sig også gældende for de øvrige fag. For at få en indikation af om testene samlet set ser ud til at måle det samme som andre tilsvarende test og prøver, kan man se på sammenhængen mellem elevernes testresultat i de nationale test og deres efterfølgende præstation i de relevante dele af folkeskolens prøver i 9. klasse. 4 • De nationale tests måleegenskaber 0 2 4 6 8 10 12 Ikke tilstrækkeligt Mangelfuld Jævn God Rigtig god Fremragende Karakter dansk læsning Figur 2:De nationale test i matematik 6. klasse og folkeskolens prøve i 9. klasse Figur 1: De nationale test i dansk læsning 8. klasse og folkeskolens prøve i 9. klasse Anm.: Gennemsnitskarakter (firkant) samt 25 pct. og 75 pct. percentiler (vandret streg) Anm.: Gennemsnitskarakter (firkant) samt 25 pct. og 75 pct. percentiler (vandret streg) 0 2 4 6 8 10 12 Ikke tilstrækkeligt Mangelfuld Jævn God Rigtig god Fremragende Karakter færdighedsregning Den øvelse er lavet i figur 1 og figur 2 for den elevårgang, der tog 9.klasseprøver i foråret 2015. Figuren viser, at elevernes tidligere testresultater i matematik og læsning i 6. og 8. klasse hænger tæt sammen med deres efterfølgende karakterer i hhv. færdighedsregning og læsning i folkeskolens prøver i 9. klasse. For begge fag er der en statistisk signifikant sammenhæng. 5 • De nationale tests måleegenskaber Elever, der opnår et testresultat i de nationale test i dansk læsning 8. klasse på niveauet ’God’, får med stor sandsynlighed karakteren 4 eller 71 i folkeskolens prøve året efter, mens elever, der opnår et testresultat i dansk læsning 8. klasse på niveau- et ’Rigtig god’, med stor sandsynlighed får karakteren 7 eller 10 i folkeskolens prøve året efter. I en rapport fra konsulentfirmaet DAMVAD i 20142 påvises det i øvrigt, at der er en sammenhæng mellem de resultater eleverne opnår i de nationale test og i den internationale PISA-undersøgelse, jf. boks 1. Dette gælder både for testene i dansk og matematik. HVOR GOD ER TESTEN TIL AT VURDERE DEN ENKELTE ELEVS FAGLIGE NIVEAU? En anden kritik er gået på, om testene har for høj en statistisk usikkerhed i forhold til at vurdere elevernes faglige niveau i de områder af faget, som testes. I de nationale test er det muligt af få angivet den statistiske usikkerhed på elevens testresultat3 . Dette er ikke en mulighed i mange andre test og prøver. Elevernes resultater i testene afrapporteres via forskellige skalaer. På den kriterie- baserede skala, der bl.a. kan anvendes i forældrebrevene, er der seks niveauer ranger- ende fra ”ikke tilstrækkelig” til ”fremragende”. Det faglige niveau, elevens testresultat er beregnet til, er det mest sandsynlige på baggrund elevens testresultat, men det kan ikke afvises med en mindre sandsyn- lighed, at elevens testresultat ligger lige over eller under. Nogle elevers faktiske niveau kan ligge i gråzonen mellem to niveauer, hvilket gør vurderingen af, om en elev fx skal vurderes ”god” eller ”rigtig god”, mere usikker. Boks 1. Uddrag af Damvad-rapport om PISA og de nationale test (s. 5): ”Der er en tydelig sammenhæng mellem resultaterne fra de nationale test og resulta- terne fra PISA-undersøgelserne. Sammenhængen kan observeres på tværs af profil- områder i både læsning og matematik, men er ikke nødvendigvis jævnt fordelt.” ”Den tydelige sammenhæng mellem resultaterne fra de nationale test og PISA bety- der samtidig, at de to test uafhængigt af hinanden når til relativt enslydende vurde- ringer af elevers faglige niveauer. Det er en bekræftelse af, at de nationale test siger noget relevant om elevernes faglige niveau i de områder, hvori de testes.” 1 Henholdsvis 25 pct. og 75 pct. percentiler 2 PISA-relatering af de kriteriebaserede nationale test. DAMVAD 2014 (http://www.uvm.dk/-/media/ UVM/Filer/Udd/Folke/PDF14/Okt/141008-Kriteriebaserede-test-delrapport-1.ashx) 3 En fordel ved den måde, de nationale tests er bygget op på, er, at læreren undervejs i testafviklingen kan se en vurdering af den statistiske sikkerhed i vurderingen af elevernes faglige niveau på sin skærm. Det giver læreren mulighed for at lade testen vare længere end de normale 45 minutter, hvis læreren vurderer, at det er nødvendigt for at opnå en højere sikkerhed. 6 • De nationale tests måleegenskaber Beregninger, jf. tabel 1, viser, at ni ud af ti testresultater (91 pct.) med statistisk sikkerhed4 vurderes rigtigt i det beregnede faglige niveau eller i enten niveauet lige under eller niveauet lige over. De resterende 9 procent af elevernes testresultater har en større usikkerhed, der betyder, at elevens faktiske niveau ikke kan afvises at ligge i både niveauet lige under og i niveauet lige over det målte niveau. Størstedelen af disse elever er elever, som vurderes til en jævn præstation. Elevens testresultat ligger med stor sandsynlighed i … … det beregnede faglige niveau … det beregnede faglige niveau eller niveauet lige under … det beregnede faglige niveau eller niveauet lige over … det beregnede faglige niveau eller niveauet lige over eller lige under 28 pct. 34 pct. 29 pct. 9 pct. Tabel 1: Den statistiske sikkerhed på elevens testresultat på den kriteriebaserede skala Anm: Enkelte testresultater (<0,02 pct.) er mere usikkert bestemt Den normbaserede percentilskala er en værdi fra 1 til 100, som læreren kan bruge til sin egen bearbejdning af elevernes resultater. Det er således ikke en værdi, der oplyses i forældrebrevene. Lærere kan bruge værdien til at få en mere detaljeret vurdering af eleverne i forhold til den mindre finmaskede kriteriebaserede skala. Usikkerheden er mere synlig på den normbaserede percentilskala. I gennemsnit er usikkerheden på ca. ± 125 point. Det vil sige, at det ikke kan afvises, at en elev, der scorer 75 point, reelt kan have en score, der ligger mellem 63 og 87 point. Det er vigtig at understrege, at elevens beregnede score er den mest sandsynlige værdi, men der er en vis sandsynlighed for, at den reelle score afviger fra denne. Som figur 3 viser, er usikkerheden, omregnet til percentilskalaen, størst for de elever, der scorer middel, mens den er mindre for elever med høje eller lave scorer. 4 Der er her anvendt et sikkerhedsinterval på ± 1*SEM svarende til et 67 pct. sikkerhedsinterval til vur- dering af usikkerheden på individniveau. Til vurdering af usikkerheden på et gennemsnit anvendes ofte et sikkerhedsinterval på ± 2*SEM svarende til et 95 pct. sikkerhedsinterval 5 Der er tale om en lille tilnærmelse, da sikkerhedsintervallerne på percentilskalaen ikke er helt symmetriske 7 • De nationale tests måleegenskaber 0 5 10 15 20 25 30 1-10 11-20 21-30 31-40 41-50 51-60 61-70 71-80 81-90 91-100 Længde på sikkerhedsinterval Elevdygtighed MÅLER TESTENE DET SAMME, NÅR DE MÅLER ELEVERNE TO GANGE I TRÆK? Endelig har der været sat spørgsmålstegn ved, om de nationale test måler ensartet, når eleverne gennemfører den samme test to gange med kort mellemrum. De nationale test er som udgangspunkt udviklet som et redskab til de obligatoriske målinger på bestemte klassetrin. Muligheden for at gennemføre frivillige nationale tests i efterårssemesteret har dog gennem de seneste år været stigende. I alt gen- nemførte knap 320.000 elever i efteråret 2015 de frivillige nationale test. Ca. 35.000 af dem gennemførte to på hinanden følgende frivillige tests i samme fag. Når man gennemfører to på hinanden følgende tests med få ugers mellemrum6 er der mange faktorer, der kan spille ind i forhold til, om man kan sammenligne de to testresultater. Lærerens instruktioner og formålet med de to hurtige testafviklinger, elevens motivation og koncentration samt stabiliteten af lokalt it-udstyr er nogle af de forhold, der kan påvirke et testforløb. I tabel 2 er modellen bag de nationale test afprøvet via computersimuleringer for at vurdere selve modellens målepræcision uafhængigt af elevernes motivation m.v., der måtte have betydning ved at afvikle to test med kort tids mellemrum. Konkret er testafviklingerne simuleret med to gentagne elevforløb for 5.000 elever. 6 I gennemsnit var der 20 dage mellem Figur 3: Den statistiske sikkerhed på elevens testresultat på percentilskalaen 8 • De nationale tests måleegenskaber Udtrykt på percentilskalaen er forskellen i den beregnede elevdygtighed mellem de to simuleringer i gennemsnit lig nul med et interkvartilt7 range på [-8; +8]. I alle profilområder er der desuden en statistisk signifikant positiv sammenhæng mellem elevdygtigheden bestemt ved de to simulerede testforløb8 . Med undtagelse af de nationale test i sprogforståelse (profilområde 1) i dansk læsning 2. klasse ligger alle korrelationerne9 i intervallet 0,82 - 0,93. Ser man på de faktiske resultater fra de ca. 35.000 elever, der gennemførte to på hinanden følgende frivillige tests i efteråret 2015, er der ligeledes en positiv statistisk signifikant sammenhæng. Denne sammenhæng er dog en anelse svagere end i de simulerede elevforløb. Forskellen i korrelationerne baseret på observerede og simulerede elevforløb viser, at elevadfærden har en vis indflydelse på muligheden for at opnå det samme testresul- tat ved at gentage den samme test. Hvis man som skole afvikler de frivillige test med få ugers mellemrum, bør man således være særligt opmærksom på at tolke resul- taterne varsomt og ud fra de forhold, som testene er afviklet under. 7 25 pct. og 75 pct. percentiler 8 Korrelationskoefficienten er et udtryk for sammenhængen mellem to målinger og ligger i intervallet fra -1 til +1. Guideline til vurdering af korrelations koefficienter: ’0,0-0,2’=meget svag; ’0,2-0,4’=svag; ’0,4-0,6’=moderat; ’0,6-0,8’=stærk; ’0,8-1,0’=meget stærk. (Evans, J.D. 1996: Straightforward statistics for the behavioral sciences) 9 Korrelationerne er beregnet på baggrund af testresultater på logit skalaen Test Profilområde 1 Profilområde 2 Profilområde 3 Dansk læsning 2. klasse 0,78 0,93 0,91 Dansk læsning 4. klasse 0,82 0,89 0,90 Dansk læsning 6. klasse 0,82 0,86 0,87 Dansk læsning 8. klasse 0,84 0,87 0,88 Matematik 3. klasse 0,90 0,86 0,82 Matematik 6. klasse 0,89 0,86 0,89 Tabel 2 Korrelationen mellem elevdygtigheden ved to simulerede testforløb
Bilag 4- Opgavebeskrivelse for evaluering af de nationale test.pdf
https://www.ft.dk/samling/20181/spoergsmaal/S744/svar/1573649/2044440.pdf
Sagsnr.: 18/15752 1 Opgavebeskrivelse for evaluering af de nationale test Baggrund Folketinget vedtog i marts 2006 indførelsen af de nationale test. Den første obligatoriske testrun- de blev gennemført i foråret 2010. De nationale test var ét blandt flere elementer i et lovforslag fra december 2005 om fornyelse af folkeskolen for at forbedre det faglige niveau blandt eleverne. De nationale test tjener to formål: Med vedtagelsen af L101 indførtes de nationale test som et pædagogisk redskab til lærerne. Med vedtagelsen af L170 blev de nationale test desuden givet et styringsformål. De nationale test har følgende grundlæggende karakteristika: Hver test består af tre faglige profilområder. De er it-baserede. De er adaptive, hvilket vil sige, at de tilpasser sig elevens niveau undervejs i testforløbet. De er selvscorende. Der gives en tilbagemelding pr. profilområde samt en samlet vurdering. En test kan gennemføres på én lektion (45 min.). De nationale test blev senest evalueret i 2013. Folketinget blev som opfølgning på evalueringen i 2013 lovet, at der skulle igangsættes en ny evaluering efter en femårig periode. Evalueringen skal danne grundlag for en ny redegørelse til folketinget og for at vurdere behovet for eventuelle æn- dringer. Der henvises til bilag 1 for yderligere baggrund om de nationale test. Opgavens formål Formålet med evalueringen af de nationale test er at få viden om, hvorvidt de nationale tests ind- hold og udformning har styrket skolernes evalueringskultur og derigennem elevernes faglige ni- veau. Evalueringen skal belyse styrker såvel som svagheder omkring indholdet og brugen af de nationa- le test i folkeskolen. Evalueringen skal give et vidensgrundlag, der kan danne grundlag for redegørelse til folketinget og danne afsæt for det fremadrettede arbejde med udvikling og brug af de nationale test i folke- skolen. Opgavens indhold og metode De nationale test tjener flere formål og skal med sine resultater give mening for mange forskellige brugere på flere forskellige niveauer. Det er derfor afgørende for brugbarheden af evalueringen, at den gives et summativt såvel som formativt sigte, og at den afvejer de heterogene forhold med de respektive overordnede formål for testene rettet mod mange aktører med henblik på, at der kan træffes et afvejet og kvalificeret valg om den fremadrettede brug og udvikling af de nationale test. 2018-19 S 744 endeligt svar Offentligt Sagsnr.: 18/15752 2 Opgaven består overordnet af to dele: 1) Validering af teknisk beregning 2) Undersøgelse af betydningen og brugen af de nationale test Delopgave 1: En analyse af den statistiske usikkerhed, reliabiliteten og øvrige måleegenskaber forbundet med de nationale test. STIL gennemfører en analyse af den statistiske usikkerhed på de beregnede elevdygtigheder og af reliabiliteten af testene. Konkret bliver følgende evalueringsspørgsmål besvaret: 1. Regner de nationale test rigtigt? Ved besvarelse af spørgsmålet skal den kritik der rejses af den statistiske sikkerhed og reliabi- liteten i de nationale test adresseres. Herunder skal det klarlægges om: a. opgavernes sværhedsgrader stadig er korrekte? b. opgaverne fortsat passer til Rasch-modellen? c. det er muligt at forbedre den adaptive algoritme med henblik på at reducere den statisti- ske usikkerhed? 2. Det skal afdækkes, om sikkerheden i målingerne af elevernes færdigheder forbedres ved at kombinere resultater fra forskellige profilområder? Herunder sigter spørgsmålet på at klar- lægge følgende: a. Kan det påvises, at profilområderne måler forskellige aspekter af den samme bagvedlig- gende færdighed? b. Som følge af spørgsmål a: Kan testresultaterne fra profilområderne slås sammen og dermed forbedre sikkerheden i testene? Delopgavens metode: Spørgsmålene et og to løses internt i Undervisningsministeriet ved Styrel- sen for IT og Læring (STIL). Undersøgelsen heraf fordrer ikke indsamling af nye data, men skal gennemføres ved analyse af eksisterende data samt ved at udarbejde yderligere dokumentation for testenes egenskaber. STIL udarbejder dokumentation for den anvendte metode til bestemmelse af opgavernes svær- hedsgrader herunder de enkelte faser i den statistiske analyse. Der foretages analyse af, hvorvidt opgavernes sværhedsgrader er ændret over årene, og i hvilket omfang der tages højde for dette i den adaptive algoritme. Endvidere vil mulige forbedringstiltag af den adaptive algoritme blive beskrevet herunder effek- ten på den statistiske usikkerhed. Muligheden for at samle testen i de tre adskilte profilområder til ét samlet profilområde undersø- ges ved analyse af eksisterende elevbesvarelser. STIL involverer eksterne forskere i analyserne. Evaluator opgave i forbindelse med delopgave 1 er at validere resultaterne af STILs dokumentation og analyser ved brug af nationale og nordiske forskere på området. STUK skal godkende reviewgruppen. Sagsnr.: 18/15752 3 Delopgave 2: Undersøgelse af brugen af de nationale test Der skal gennemføres en kortlægning og analyse af brugen af de nationale test blandt elever, lære- re, ledere, kommunalt forvaltnings- og politisk niveau og på statsligt forvaltnings- og politisk ni- veau. Konkret skal følgende evalueringsspørgsmål besvares: 1. Findes der test i Danmark eller andre lande, som med samme tidsforbrug måler mere præcist end de nationa- le test? Der skal udarbejdes en kortlægning og komparativ analyse af det danske og internationale testlandskab, der omfatter a. En analyse af målepræcisionen i andre danske test i forhold til hvad der er beskrevet i rammedokumenter om skolens formål og målsætninger og i forhold til tidsforbruget ved de analyserede test? b. En kortlægning af andre landes nationale testredskaber og en analyse af præcisionen i disse sammenlignet med de nationale test og set i forhold til tidsforbruget med testred- skaberne. c. En kortlægning af internationale erfaringer med raschscorede lineære test og erfaringer med en kombination af adaptive og lineære test 2. I hvilket omfang er der sammenhæng mellem på den ene side skolens formål og målsætninger beskrevet i rammedokumenter og på den anden side indholdet af de nationale test? Der skal udarbejdes en kortlægning og analyse af de sammenhænge, der er mellem folkesko- lens formål og indholdet af de nationale test, der omfatter a. En analyse af om de nationale test måler centrale dele af faget og fagenes formål jf. Fæl- les Mål. Der tages udgangspunkt i fagenes formål, og de centrale dele af fagene udvæl- ges i samarbejde med STUK. b. En gennemgang af det faglige indhold der testes på i de nationale test samt en empirisk analyse af samvariationen i elevers præstationer i testene og andre aspekter af fagets formål. 3. Oplever lærerne, at den information som de nationale tests producerer, er nyttig og handlingsvejledende i det pædagogiske arbejde? Herunder ønskes som minimum en analyse af anvendeligheden for lærere og ledere af vej- ledningerne knyttet til de nationale test, der omfatter a. En analyse af den pædagogiske og didaktiske informationsværdi af oplysninger knyttet til de nuværende profilområder for lærere og ledere. b. En kortlægning og analyse af i hvilket omfang de kriteriebaserede og normbaserede re- sultater giver oplysninger, som lærere, vejledere og ledere kan bruge til at vurdere, hvor eleven ligger i forhold til skolens formål og målsætning? c. En undersøgelse af hvilke tilbagemeldinger, der er tilgængelige for lærere, herunder hvilken type tilbagemeldinger lærerne foretrækker. 4. Hvordan forstår lærerne, hvad resultaterne af de nationale test viser? En kortlægning og analyse af lærernes forståelse og fortolkning af de nationale testresultater, der omfatter Sagsnr.: 18/15752 4 a. En kortlægning af i hvilken grad lærerne har kendskab til vejledningsmaterialet om de nationale test b. En kortlægning af, hvorvidt de oplever, at den information som de nationale test pro- ducerer, er nyttig og handlingsanvisende i det pædagogiske arbejde. c. En analyse af i hvilken grad vejledningerne svarer til det som de nationale tests visnin- ger. d. En analyse af den sammenhæng der er mellem a, b og c. 5. Når de nationale test fokuserer på delaspekter af specifikke fagområder, hvordan præger valget af disse delaspekter så den måde, som det enkelte fag opfattes, realiseres og prioriteres? En analyse af hvordan undervisningen afspejler profilområderne i de enkelte test, der som minimum omfatter: a. En analyse af om og i givet fald hvordan lærerne oplever, at de nationale test ved deres blotte eksistens, indhold og form, påvirker lærernes undervisning; dels i klassesammen- hæng, dels i forhold til den enkelte elev. 6. Hvordan er evalueringspraksis på skolerne? En kortlægning og analyse af den eksisterende evalueringspraksis på skolerne, der som mi- nimum omfatter: a. En kortlægning af hvilke redskaber lærere og ledere bruger til at få indblik i elevernes faglige niveau. b. En kortlægning af hvordan dialoger omkring testresultaterne foregår. c. En kortlægning af hvordan testresultaterne indgår i den pædagogiske praksis i forhold til eleverne. d. En kortlægning og analyse af hvordan lærernes oplevelse af sammenhængen mellem de nationale test på den ene side og på den anden side det pædagogiske arbejde og skolens evalueringspraksis i øvrigt. e. En kortlægning af, hvad forvaltningsniveau, ledere, vejledere og læreres oplevelse af udviklingen af evalueringspraksis er over de seneste år 7. I hvilket omfang og hvordan arbejder skoleledere og lærere sammen om at tolke testresultater og bruge dem i forhold til udvikling af den pædagogiske praksis? Der udarbejdes en kortlægning af læreres og lederes samarbejde om de nationale test og test- resultater og tolkningen deraf. Kortlægningen skal som minimum omfatte: a. En kortlægning og analyse af hvordan vejledere og konsulenter inddrages i samarbejdet, og hvem der inddrager disse? b. En analyse af hvordan samarbejdet mellem ledere og lærere om testene påvirker lærer- nes didaktik 8. Hvordan anvender og oplever skoleledelsen de nationale test i ledelsesarbejdet og i skolernes evalueringsprak- sis i øvrigt? Der skal udarbejdes en kortlægning og analyse af ledelsens anvendelse af de nationale test i relation til forvaltningslaget og pædagogiske og strategiske ledelse af skolen, der som mini- mum omfatter: a. En kortlægning af samarbejdet mellem skoleledelsen og forvaltningen på baggrund af og omkring testresultaterne. Sagsnr.: 18/15752 5 b. En kortlægning og analyse af hvilken rolle de nationale testresultater spiller for ledelsen af den enkelte lærer, og hvordan lærerne tilsvarende oplever, at ledelsen anvender test- resultaterne? c. En kortlægning af om de nationale test spiller en anden rolle end eventuelle øvrige test på skolen i ledelsesarbejdet og i givet fald hvilken. 9. Hvad er elevernes oplevelse af, hvordan lærerne forklarer om de nationale test, herunder testsituationen, de nationale tests formål og anvendelse? Der skal gennemføres en analyse af situationen, der omkranser testsituationen således der analyseres på sammenhænge mellem lærernes rammesætning af testene og elevernes testad- færd. Analysen skal gennemføres i indskoling på mellemtrin og i udskolingen og skal som minimum indeholde a. En kortlægning af elevernes oplevelse af lærernes forklaring af de nationale test b. En analyse af den introduktion og rammesætning lærerne giver før gennemførelse af de nationale test c. En analyse af lærernes adfærd i forbindelse med gennemførsel af de nationale test d. En analyse af sammenhængen til elevernes oplevelse af testsituationen både før, under og efter gennemførslen af testene. e. En analyse af elevernes testadfærd i forbindelse med afviklingen af testene og sammen- hænge til lærernes rammesætning og adfærd i testsituationen. 10. Hvad er virkningen af de nationale test på elevernes faglige niveau? Der skal gennemføres en analyse af hvilken betydning de nationale test har og har haft for udviklingen i elevernes faglige niveau. Analysen skal i videst muligt omfang isolere betydnin- gen af de nationale test fra andre indsatser med betydning for elevernes faglige resultater. Analysen skal som minimum a. Forholde sig til hvordan de nationale test som del af skolernes evalueringspraksis har og har haft betydning for elevernes faglige udvikling. b. Forholde sig til hvordan de nationale test har og har haft betydning for mål for elever- nes læring, mål for lærernes og skolernes pædagogik og didaktik c. Forholde sig til hvordan de nationale test har og har haft betydning for lærerenes tilret- telæggelse af undervisningen af den enkelte elev og undervisning af klassen. 11. Får eleverne feedback efter test og i så fald, kan de bruge den i forhold til deres egen læring? Indgår eleverne i samarbejde om opfølgning på de nationale test? Der skal gennemføres en kortlægning af den feedback eleverne får efter testenes afholdelse, der som minimum skal indeholde a. En kortlægning af omfang og indhold af den feedback lærere giver til eleverne. b. En kortlægning af i hvilket omfang testresultaterne genbesøges og formativt danner grundlag for elevenes faglige udvikling. 12. Hvordan vurderer forældre (som vidner til elevernes reaktioner og lærernes information) fordele og ulemper ved de nationale test? Der skal gennemføres en kortlægning af forældrenes vurdering af de fordele og ulemper de ser ved brugen af de nationale test. Kortlægningen skal som minimum omfatte a. Den opfattelse de har af nytten af de nationale test Sagsnr.: 18/15752 6 b. Den tilbagemelding og italesættelse de oplever fra elever og lærere 13. Hvordan anvendes de nationale test institutionelt til styring? Der skal gennemføres en kortlægning af omfang og måden hvorpå skolebestyrelsen i samar- bejde med skolens ledelse ser og anvender de nationale test til at sætte pædagogiske og stra- tegisk retning for skolen. Denne skal som minimum omfatte a. Hvordan og i hvilket omfang anvender skolebestyrelserne resultaterne af de nationale test i arbejdet. b. Hvilke andre data de nationale test kombineres med som grundlag for beslutninger om skolen strategisk og pædagogisk. En kortlægning af, hvorvidt ledere og skolebestyrelser anvender muligheden for at følge faglig progression gennem hele skoleforløbet. 14. Hvordan anvendes de nationale test på kommunalt styringsniveau? Der skal gennemføres en kortlægning og analyse af det kommunale niveaus anvendelse af testdata fra de nationale test i relation til styring af det samlede kommunale skolevæsen og i relation til den enkelte skole. Kortlægning og analyse skal som minimum forholde sig til: a. Hvordan og i hvilket omfang der politisk træffes beslutninger på baggrund af de natio- nale test. b. Hvad man politisk og forvaltningsmæssigt supplerer med for at have sikker viden om skolernes faglige status. c. En kortlægning af, hvorvidt man på kommunalt niveau anvender muligheden for at følge faglig progression gennem hele skoleforløbet. 15. Hvordan anvendes de nationale test på nationalt styringsniveau? Der skal gennemføres en kortlægning og analyse på nationalt niveau af anvendelse af viden fra de nationale test i relation til politisk beslutningsgrundlag, tilsyn og andre indsatser samt forskning på skoleområdet. Kortlægning og analyse skal som minimum forholde sig til: a. En kortlægning af, hvordan og i hvilket omfang viden fra de nationale test anvendes i forhold til det politiske niveau. b. En kortlægning af, hvordan og i hvilket omfang viden fra de nationale test anvendes i viden og forskning, der anvendes af det politiske niveau. c. Om der kan indhentes mål for faglighed af anden vej om elevernes skoleforløb over tid frem mod folkeskolens afgangsprøve. d. En kortlægning af, hvorvidt man på nationalt niveau anvender muligheden for at følge faglig progression gennem hele skoleforløbet. Delopgavens metode: Evalueringsopgaven omkring de nationale test skal give viden på tre ni- veauer: 1) målopfyldelse, 2) implementering og 3) som teoribaseret evaluering. Målopfyldelsesevaluering Der skal foretages en evaluering af graden af hvorvidt de fastsatte mål for de nationale test er opnået, og i hvilken grad de nationale test har bidraget til opfyldelsen af de formål der blev givet for de nationale test. Implementeringsevaluering Sagsnr.: 18/15752 7 Som en del af evalueringen af de nationale test skal der foretages en evaluering af implementerin- gen af testene. Evalueringen af implementeringen skal undersøge hvilke faktorer, der har fremmet eller besværliggjort implementeringen samt beskrive de involverede aktørers (elever, lærere, lede- re, forvaltnings- og politiske aktører) erfaringer med de nationale test, samt de fordele og ulem- per, de ser ved brugen af de nationale test. Teoribaseret evaluering og metoder Den teoribaserede evaluering har til formål at undersøge, om de forventede resultater ved brugen af de nationale test i forhold til de givne formål er opnået. Den teoribaserede evaluering skal der- for bero på et evalueringsdesign, som muliggør undersøgelse af sammenhængen mellem indsat- serne med de nationale test og resultaterne. Evalueringsdesignet skal gøre det muligt at identifice- re de forhold og de mekanismer, der synliggør hvordan de nationale test virker for de respektive aktører. Der skal indgå kvantitative og kvalitative dataindsamlinger i evalueringen i forhold til relevante forhold, der gør sig gældende for aktører og aktiviteter omkring brugen af de nationale test. Det kan eksempelvis være spørgeskemaundersøgelse, anvendelse af registerdata, forløbs- og testdata, brug af data fra følgeforskningen til folkeskolereformen, kvalitative casestudier og deskresearch. Det er et krav, at der gennemføres tiltag til at validere resultater af undersøgelsen. Det kan være ved kvalificeringsworkshop m.v. Evaluator kan komme med yderligere forslag til undersøgelses- design. Evaluator skal sandsynliggøre, at undersøgelsesdesignet giver solide analyser. Evaluator skal end- videre tilbyde et design, der sikrer repræsentativitet i forhold til demografisk og geografisk spred- ning og variation i kommune- og skolestørrelser m.v. Formidling og endeligt produkt Evaluator skal foretage en samlet afrapportering af delopgave et og to. Rapporten skal afveje evalueringens resultater for de respektive aktører op mod formålene for de nationale test og give mulighed for, at der kan anvises retning for den fremadrettede udvikling og brug i folkeskolen. Tidsmæssige krav Det forudsættes, at der er en tæt dialog mellem Styrelsen for Undervisning og Kvalitet og evalua- tor med månedlige statusmøder. Evaluering og afrapportering udarbejdes efter følgende tidsplan: Opstartsmøde primo marts 2019 Dataindsamling i forbindelse med dem obligatoriske testafvikling fra 1. marts til 30. april. Statusnotat ultimo august som opfølgning på dataindsamlingen og de indledende analyser. Udkast til rapport afleveres til STUK ultimo oktober 2019 Endelig rapport afleveres til STUK ultimo november 2019 STUK offentliggør rapport med udgangen af januar 2020 Budget Opgaven skal løses inden for en ramme på 3.000.000 kr., der faktureres med aflevering af den endelige rapport.