Nivåbeskrivelser og standarder i PISA og TIMSS: Kan liknende prosedyrer også bli brukt på nasjonale prøver og eksamen?

I 2015 var CEMO vertskap for en internasjonal konferanse knyttet til temaet standardsetting i de nordiske landene. Kapitlet skrevet av Olsen og Nilsen er en av i alt 18 presentasjoner fra konferansen som er inkludert i en egen redigert bok som utkom i år. Helt kort handler standardsetting om prosedyrer for å identifisere ett eller flere punkter, såkalte kuttskårer, på skalaen fra en test. Hensikten med å identifisere slike punkter langs skalaen kan være mange: Fra et enkelt formål hvor man ønsker å kunne kommunisere resultatene i form av et fornuftig antall grove rapporteringskategorier, til situasjoner der man ønsker å etablere kriterier som gjør sammenlikninger på tvers av flere prøver mulig.

I de to internasjonale storskalaundersøkelsene TIMSS og PISA rapporteres resultater i form av et begrenset antall prestasjonsnivåer. I kapitlet beskriver og sammenlikner Olsen og Nilsen hvordan denne standardsettingen blir gjort i de to undersøkelsene. Det som er viktig å legge merke til er at man i disse undersøkelsene både har identifisert noen kuttskårer og utviklet beskrivelser av hva som typisk kjennetegner kompetansen til elevene i de ulike nivåene.

Det er noen ulikheter i hvordan standardsettingen er gjennomført i de to undersøkelsene. TIMSS definerer fire jevnt fordelte kuttskårer. Kompetansen til elevene som ligger på eller like ved disse kuttskårene blir beskrevet. PISA deler skalaen inn i seks (og i noen tilfeller flere) like brede nivåer, og beskriver kompetansen som kjennetegner elevene i hvert av disse nivåene. TIMSS beskriver dermed punkter, eller i praksis svært smale intervaller på skalaene, mens PISA beskriver kjennetegn for langt bredere utsnitt av skalaene.

Likevel er metodene for standardsetting i de to studiene mer eller mindre den samme: Man beregner elevenes skårer og oppgavenes vanskegrader ved å bruke såkalt Item Response Theory (IRT). En viktig egenskap ved IRT er at vanskegraden til oppgavene uttrykkes som dyktigheten til en elev som har 50 % sannsynlighet for å få poeng på oppgaven. Man kan dermed lage et diagram som plasserer oppgavene og elevene på den samme skalaen. Når denne skalaen blir delt opp ved å definere et begrenset antall kuttskårer, får man også en gruppering av alle oppgavene i prøven. Lengst ned på skalaen får man en gruppe med lette oppgaver som mange elever lykkes med, og lengst oppe får man en samling oppgaver som kun en begrenset andel av elevene lykkes med.

Så langt er dette en datadrevet og empirisk prosess. I det neste steget må man imidlertid bruke eksperters faglige skjønn. En beskrivelse av oppgavene i de ulike delene av skalaen blir nå brukt for å utlede kjennetegn ved kompetansen til elevene som liger på samme sted på skalaen. Et viktig valg i denne prosessen er hvor oppgavespesifikke eller generelle beskrivelsene skal være. «Elevene kan løse oppgaven 7+8», «elevene kan addere ensifrede tall» eller «elevene behersker elementær aritmetikk» viser en sekvens med utsagn med gradvis høyere nivå av generalisering. Beskrivelsene som er utviklet i TIMSS ligger nærmere det konkrete innholdet i oppgavene, mens beskrivelsene i PISA er formuleringer av brede trekk ved elevenes kompetanser. Olsen og Nilsen framhever at graden av generalisering bør reflektere det antallet oppgaver man har tilgjengelig. Jo høyere abstraksjonsnivå, jo flere oppgaver må man ha for å kunne lage beskrivelser som er robuste.

Anvender man dette prinsippet på TIMSS og PISA, kan man se at de to studiene har begrensninger knyttet til hvor holdbare beskrivelsene vil kunne være over tid: TIMSS har beskrivelser som i noe større grad inkluderer det konkrete faglige innhold i oppgavene. Det er derfor sannsynlig at disse beskrivelsene må revideres i senere studier når prøvene inkluderer mange nye oppgaver med delvis nytt spesifikt faglig innhold. PISA har beskrivelser som er svært generiske, og de ble utviklet på grunnlag av oppgavene som var inkludert i prøven det første året faget var såkalt hovedområde. Det er derfor sannsynlig at de generelle beskrivelsene i PISA ikke er representative over tid fordi det er foretatt en for sterk generalisering gitt det lave antallet oppgaver. Dette gjelder spesielt beskrivelsene av nivåene på topp og bunn av skalaen som er basert på et svært lavt antall oppgaver. Olsen og Nilsen foreslår at begge studiene har mulighet til å utvikle mer robuste beskrivelser ved å bruke alle oppgavene som hittil har vært brukt i de seks syklusene som er gjennomført for de to studiene. En ny standardsetting vil dermed kunne inkludere informasjon fra et langt høyere antall oppgaver.

Uten å gå i detalj, avslutter Olsen og Nilsen ved å anbefale at tilsvarende metoder med fordel kan benyttes både for nasjonale prøver og eksamen i Norge. Det er umiddelbart mulig å anvende tilsvarende prosedyrer for nasjonale prøver fordi disse prøvene nå benytter tilsvarende IRT metodikk. Noen av prøvene har også vært lenket i flere år, noe som betyr at et ganske stort antall oppgaver fra flere års gjennomføringer kan knyttes til den samme skalaen. På denne måten har man et godt utgangspunkt for å utvikle beskrivelser for de tre og fem nivåene som brukes for henholdsvis 5. og 8. trinn. Det er også et stort behov for at eksamen utvikler metoder for standardsetting. Resultater over tid viser at det er flere problemstillinger knyttet til karaktersetting: Ustabilitet på tvers av eksamen og standpunkt, på tvers av fag, på tvers av skoler og ikke minst over tid. Å utvikle klarere og tydeligere standarder for fag kan være et viktig tiltak for bedre å redusere en slik uønsket variasjon i karaktersetting.

Ved Rolf Vegar Olsen (CEMO) og Trude Nilsen (ILS).

Olsen, R. V., & Nilsen, T. (2017). Standard Setting in PISA and TIMSS and How These Procedures Can Be Used Nationally. In S. Blömeke & J.-E. Gustafsson (Eds.), Standard Setting in Education: The Nordic Countries in an International Perspective (pp. 69-84). Cham: Springer International Publishing.

Boken kan bestilles i elektronisk eller papirversjon her (ekstern lenke). For de som har institusjonelt abonnement kan den også leses direkte. Dersom man ikke har tilgang til kapitlet, kan man henvende seg til Rolf Vegar Olsen for å få tilsendt et eksemplar på epost.

Publisert 11. apr. 2017 13:12 - Sist endra 11. apr. 2017 13:53