Loading AI tools
Bildungsstudien der OECD Aus Wikipedia, der freien Enzyklopädie
Die PISA-Studien der OECD sind internationale Schulleistungsuntersuchungen, die seit dem Jahr 2000 in dreijährlichem Turnus in den meisten Mitgliedstaaten der OECD und einer zunehmenden Anzahl von Partnerstaaten durchgeführt werden und die zum Ziel haben, alltags- und berufsrelevante Kenntnisse und Fähigkeiten Fünfzehnjähriger zu messen. Das Akronym PISA wird in den beiden Amtssprachen der OECD unterschiedlich aufgelöst: englisch als Programme for International Student Assessment (‚Programm zur internationalen Schülerbewertung‘) und französisch als Programme international pour le suivi des acquis des élèves (‚Internationales Programm zur Mitverfolgung des von Schülern Erreichten‘).[1]
Dieser Artikel behandelt die internationale Studie der OECD. Das Konzept der OECD sieht ausdrücklich die Möglichkeit vor, dass Teilnehmerstaaten den internationalen Test um nationale Komponenten erweitern. Diese Möglichkeit wurde in Deutschland 2000 bis 2018 in unterschiedlichem Ausmaß genutzt:[2]
Außerdem bietet die OECD Erweiterungsmodule an, die nur von einem Teil der Staaten genutzt werden, z. B.:
Die OECD ließ 2011/12 eine weitere Studie umsetzen, die die Kompetenzen von 16- bis 65-Jährigen prüft: die PIAAC, von den Medien als „PISA für Erwachsene“ bezeichnet.
Die folgenden Merkmale unterscheiden PISA zum Teil deutlich von früheren Schulleistungsuntersuchungen:
Vertragsmäßige Aufgabe der OECD ist Politikberatung. PISA soll nicht nur eine Beschreibung des Ist-Zustandes liefern, sondern Verbesserungen auslösen. Insoweit PISA ein eigenes Bildungskonzept zugrunde liegt, wird zumindest implizit der Anspruch erhoben, auf die nationalen Lehrpläne zurückzuwirken.
Jede PISA-Studie umfasst die drei Bereiche Lesekompetenz, Mathematik und Naturwissenschaften. Bei jedem Durchgang wird ein Bereich vertieft untersucht: 2000 die Lesekompetenz, 2003 Mathematik, 2006 Naturwissenschaften. Dieser Zyklus wird dreimal (2009/2012/2015, 2018/2021/2024) durchlaufen. Die Ergebnisse werden jeweils im Dezember des Folgejahres veröffentlicht, die technischen Berichte einige Monate später.
Zusätzlich wird in jeder Studie ein Querschnittsthema untersucht: 2000 Lernstrategien und Selbstreguliertes Lernen, 2003 Problemlösung, 2006 Informationstechnologische Grundbildung. Diese Zusatzuntersuchung wird nicht in allen Staaten durchgeführt.
Nach jeder Testrunde wird ein Teil der Testaufgaben „freigegeben“ und veröffentlicht. Sämtliche freigegebenen Aufgaben finden sich auch online auf den Webseiten der OECD und der nationalen Projektleitungen. Die Testhefte umfassen typischerweise ungefähr zwanzig Aufgabeneinheiten. Jede Aufgabeneinheit besteht aus Einleitungsmaterial und eine bis sieben daran anschließenden Aufgaben.
Die Aufgabeneinheit „Tschadsee“ aus dem Lesetest von PISA 2000[4] zeigt beispielhaft, wie weit das literacy-Konzept von PISA gefasst ist. Die Einleitung dieser Aufgabe enthält keinen Lesetext im herkömmlichen Sinn, sondern besteht in der Hauptsache aus zwei Diagrammen („nicht-textuelles Lesematerial“), die die Schwankungen des Wasserstands in den letzten 12.000 Jahren und das Verschwinden und Auftauchen von Großtierarten darstellen. Daran schließen sich fünf Aufgaben an. Beispielhaft:
Die Fragen 4 und 5 sind dann wieder im Multiple-Choice-Format.
PISA ist eines von mehreren Projekten, mit denen sich die OECD seit den 1990er Jahren verstärkt im Bereich Bildungsmonitoring engagiert. Die Koordination und die Endredaktion der internationalen Berichte obliegen einer kleinen Arbeitsgruppe am Hauptsitz der OECD in Paris unter Leitung des Deutschen Andreas Schleicher. Politisch wird das Projekt von einem Rat aus Regierungsvertretern gesteuert; wissenschaftlich wird es von einem Expertengremium nebst Unterausschüssen begleitet. Die Erstellung und Auswertung der Testaufgaben wurde ausgeschrieben und an ein Konsortium aus mehreren Unternehmen der Testindustrie unter Leitung des Australian Council for Educational Research (ACER) vergeben.
In den Teilnehmerstaaten wurden nationale Projektzentren eingerichtet.[5] In jedem Staat werden Stichproben von mindestens 5000 Schülern gezogen; in manchen Staaten, vor allem um Regionalvergleiche zu ermöglichen, ein Vielfaches davon.
Der Test umfasst eine zweistündige „kognitive“ Testsitzung, gefolgt von einer knapp einstündigen Fragebogensitzung („Questionnaire“). Im kognitiven Test bearbeiten nicht alle Schüler dieselben Aufgaben; 2003 wurden dreizehn verschiedene Testhefte (sowie in manchen Ländern in Sonderschulen ein Kurzheft) eingesetzt; von insgesamt 165 verschiedenen Aufgaben hatte jeder einzelne Schüler nur etwa 50 zu bearbeiten.
Die Schülerlösungen werden von angelernten Hilfskräften kodiert, digital erfasst und ans internationale Projektzentrum nach Australien zur weiteren Auswertung übermittelt. Die meisten Aufgaben werden letztlich nur als entweder „falsch“ oder „richtig“ bewertet. Je nachdem, wie viele Schüler eine Aufgabe richtig gelöst haben, wird der Aufgabe ein bestimmter „Schwierigkeitswert“ zugeordnet. Je nachdem, wie viele Aufgaben ein Schüler gelöst hat, wird dem Schüler eine bestimmte Spanne „plausibler“ „Kompetenzwerte“ zugeordnet. Schwierigkeits- und Kompetenzwerteskala werden nachträglich so skaliert, dass die Kompetenzwerte im OECD-Staatenmittel den Mittelwert 500 und die Standardabweichung 100 haben. Um auszugleichen, dass die Testhefte unterschiedlich schwierig waren und dass einzelne Aufgaben in einzelnen Staaten, zum Beispiel wegen Druckfehlern, nicht gewertet werden konnten, wird die gesamte „Skalierung“ der Schwierigkeits- und Kompetenzwerte unter Zuhilfenahme eines komplexen mathematischen Modells des Schülerantwortverhaltens, der sogenannten Item-Response-Theorie berechnet.
Die Aufgabenschwierigkeitswerte erlauben ansatzweise eine „didaktische“ Interpretation der Testergebnisse: Wenn ein Schüler beispielsweise 530 Kompetenzpunkte erzielt hat, dann kann er mit 62-prozentiger Wahrscheinlichkeit (die Zahl 62 Prozent ist willkürlich festgelegt worden) eine Aufgabe der Schwierigkeit 530 lösen. Wenn man sich nun veröffentlichte Aufgabenbeispiele anschaut, deren Schwierigkeitswert in der Nähe von 530 liegt, dann bekommt man einen Eindruck, was ein Kompetenzwert von 530 bedeutet. Allerdings muss man dabei beachten, dass der Test unter erheblichem Zeitdruck stattfindet (knapp über zwei Minuten pro Aufgabe).
Fast alle weiterführenden Auswertungen beruhen darauf, dass die statistische Verteilung der Schülerkompetenzwerte in den Teilnehmerstaaten oder feiner aufgeschlüsselten Populationen untersucht wird.
PISA misst Schülerleistung in Punkten auf einer willkürlichen Skala. Interpretierbar werden die Punktwerte erst, wenn sie in einen Kontext gesetzt werden. Das geschieht regelmäßig durch den Vergleich zwischen verschiedenen Ländern. Die Berichte der OECD und ihrer Projektpartner bestehen dementsprechend zu einem erheblichen Teil aus Länder-Ranglisten.
Die elementarste und meistbeachtete Statistik fasst die Schülerleistungen zu Mittelwerten zusammen. In der folgenden Tabelle sind die bisherigen Ergebnisse der mehrheitlich deutschsprachigen Staaten, einiger weiterer OECD-Staaten und der Durchschnitt der Ergebnisse der OECD-Staaten zusammengefasst.
Land | Lesekompetenz | |||||||
---|---|---|---|---|---|---|---|---|
2000[6] | 2003[7] | 2006[8] | 2009[9] | 2012[10] | 2015[11] | 2018[12] | 2022[13] | |
Deutschland | 484 | 491 | 495 | 497 | 508 | 509 | 498 | 480 |
Österreich | 507 | 491 | 490 | 470 | 490 | 485 | 484 | 480 |
Schweiz | 494 | 499 | 499 | 501 | 509 | 492 | 484 | 483 |
Frankreich | 505 | 496 | 488 | 496 | 505 | 499 | 493 | 474 |
Vereinigtes Königreich | 523 | 495 | 494 | 499 | 498 | 504 | 494 | |
Italien | 487 | 476 | 469 | 486 | 490 | 485 | 476 | 482 |
Spanien | 493 | 481 | 461 | 481 | 488 | 496 | 474 | |
Polen | 479 | 497 | 508 | 500 | 518 | 506 | 512 | 489 |
Niederlande | 513 | 507 | 508 | 511 | 503 | 485 | 459 | |
Schweden | 516 | 514 | 507 | 497 | 483 | 500 | 506 | 487 |
Finnland | 546 | 543 | 547 | 536 | 524 | 526 | 520 | 490 |
Türkei | 441 | 447 | 464 | 475 | 428 | 466 | 456 | |
Vereinigte Staaten | 504 | 495 | 500 | 498 | 497 | 505 | 504 | |
Kanada | 534 | 528 | 527 | 524 | 523 | 527 | 520 | 507 |
Mexiko | 422 | 400 | 410 | 425 | 424 | 423 | 420 | 415 |
Japan | 522 | 498 | 498 | 520 | 538 | 516 | 504 | 516 |
Südkorea | 525 | 534 | 556 | 539 | 536 | 517 | 514 | 515 |
OECD-Durchschnitt | 500 | 494 | 493 | 496 | 493 | 487 | 476 |
Land | Mathematik | |||||||
---|---|---|---|---|---|---|---|---|
2000[6] | 2003[7] | 2006[8] | 2009[9] | 2012[10] | 2015[11] | 2018[12] | 2022[13] | |
Deutschland | 490 | 503 | 504 | 513 | 514 | 506 | 500 | 475 |
Österreich | 515 | 506 | 505 | 496 | 506 | 497 | 499 | 487 |
Schweiz | 529 | 527 | 530 | 534 | 531 | 521 | 515 | 508 |
Frankreich | 517 | 511 | 496 | 497 | 495 | 493 | 495 | 474 |
Vereinigtes Königreich | 529 | 495 | 492 | 494 | 492 | 502 | 489 | |
Italien | 457 | 466 | 462 | 483 | 485 | 490 | 487 | 471 |
Spanien | 476 | 485 | 480 | 483 | 484 | 486 | 481 | 473 |
Polen | 470 | 490 | 495 | 495 | 518 | 504 | 516 | 489 |
Niederlande | 538 | 531 | 526 | 523 | 512 | 519 | 493 | |
Schweden | 510 | 509 | 502 | 494 | 478 | 494 | 502 | 482 |
Finnland | 536 | 544 | 548 | 541 | 519 | 511 | 507 | 484 |
Türkei | 423 | 424 | 445 | 448 | 420 | 454 | 453 | |
Vereinigte Staaten | 493 | 483 | 474 | 487 | 481 | 470 | 478 | 465 |
Kanada | 533 | 532 | 527 | 527 | 518 | 516 | 512 | 497 |
Mexiko | 387 | 385 | 406 | 419 | 413 | 408 | 409 | 395 |
Japan | 557 | 534 | 523 | 529 | 536 | 532 | 527 | 536 |
Südkorea | 547 | 542 | 547 | 546 | 554 | 524 | 526 | 527 |
OECD-Durchschnitt | 500 | 500 | 496 | 494 | 490 | 489 | 472 |
Land | Naturwissenschaften | |||||||
---|---|---|---|---|---|---|---|---|
2000[6] | 2003[7] | 2006[8] | 2009[9] | 2012[10] | 2015[11] | 2018[12] | 2022[13] | |
Deutschland | 487 | 502 | 516 | 520 | 524 | 509 | 503 | 492 |
Österreich | 519 | 491 | 511 | 494 | 506 | 495 | 490 | 491 |
Schweiz | 496 | 513 | 512 | 517 | 515 | 506 | 495 | 503 |
Frankreich | 500 | 511 | 495 | 498 | 499 | 495 | 493 | 487 |
Vereinigtes Königreich | 532 | 515 | 514 | 514 | 509 | 505 | 500 | |
Italien | 478 | 486 | 475 | 489 | 494 | 481 | 468 | 477 |
Spanien | 491 | 487 | 488 | 488 | 496 | 493 | 483 | 485 |
Polen | 483 | 498 | 498 | 508 | 526 | 501 | 511 | 499 |
Niederlande | 524 | 525 | 522 | 522 | 509 | 503 | 488 | |
Schweden | 512 | 506 | 503 | 495 | 485 | 493 | 499 | 494 |
Finnland | 538 | 548 | 563 | 554 | 545 | 531 | 522 | 511 |
Türkei | 434 | 424 | 454 | 463 | 425 | 468 | 476 | |
Vereinigte Staaten | 499 | 491 | 489 | 502 | 497 | 496 | 502 | 499 |
Kanada | 529 | 519 | 534 | 529 | 525 | 528 | 518 | 515 |
Mexiko | 422 | 405 | 410 | 416 | 415 | 416 | 419 | 410 |
Japan | 550 | 548 | 531 | 539 | 547 | 538 | 529 | 547 |
Südkorea | 552 | 538 | 522 | 538 | 538 | 516 | 519 | 528 |
OECD-Durchschnitt | 500 | 500 | 501 | 501 | 493 | 489 | 485 |
Shanghai (China) belegt den ersten Platz in allen Fächern der Jahre 2009 und 2012. Im Jahr 2015 belegte Singapur den ersten Platz. Neben Finnland, Japan und Kanada befinden sich auch Südkorea, Neuseeland, Australien und das nicht zur OECD gehörige Territorium Hongkong regelmäßig in der Spitzengruppe. Vor der Türkei und Mexiko befinden sich am Tabellenende neben Italien regelmäßig Portugal, Griechenland und Luxemburg.
Bei einer Aufschlüsselung nach Sprachgruppen fällt auf:
Die Ergebnisse aus Liechtenstein haben erhöhte Fehlerbalken, weil dort kaum mehr als 350 Fünfzehnjährige wohnen. Immerhin entfallen die diversen Probleme der Stichprobenziehung, denn es wurde, wie auch in Luxemburg, ein Kompletttest aller Schüler durchgeführt. Außerdem ist Liechtenstein das einzige Land, welches nicht von nationalen Organisationen getestet wird, sondern von der Pädagogischen Hochschule St. Gallen aus der benachbarten Schweiz.
Zu den starken Unterschieden zwischen den deutschen Bundesländern siehe PISA-E.
Die Korrelation mit den TIMSS-Studien, die in einigen Staaten parallel zu PISA fortgeführt werden, ist mäßig, was offiziell mit unterschiedlichen Inhalten und mit Normierungseffekten aufgrund unterschiedlicher Teilnehmerschaft erklärt wird.
Um den zahlenmäßigen Ergebnissen eine anschauliche Bedeutung zu geben, teilt das Konsortium die Punkteskala willkürlich in sechs »Kompetenzstufen« und eine darunter liegende Stufe absoluter Inkompetenz. Anhand der Aufgaben, die auf einer Stufe zu lösen sind, wird dann eine verbale Beschreibung dessen, was Schüler auf einer bestimmten Stufe typischerweise können, erarbeitet. Zu beachten ist dabei, dass der Anteil der Schüler auf einer bestimmten Stufe im OECD-Mittel konstant, weil durch die Konstruktion der Schwierigkeits- und Leistungsskalen festgelegt ist. Interpretierbar sind lediglich die zumeist geringen Unterschiede zwischen Staaten.
Schüler „unterhalb“ der Stufe 1 werden international als „at risk“ bezeichnet. Die deutsche Projektleitung hat den Begriff „Risikogruppe“ jedoch ausgedehnt und die Stufe 1 darin einbezogen. Das wurde in Teilen der Öffentlichkeit verkürzt und im Gegensatz zu Aussagen der internationalen Berichte so rezipiert, als sei ein knappes Viertel aller Fünfzehnjährigen nicht in der Lage, zu rechnen und sinnerfassend zu lesen.
Im Anschluss an die zweistündige Testsitzung zur Messung kognitiver Leistungen bearbeiten die Schüler einen Fragebogen mit Fragen zum familiären Hintergrund, zum schulischen Umfeld, zu Lerngewohnheiten und ähnlichem. In den offiziellen Ergebnisberichten und in zahlreichen Sekundärstudien wird dargestellt, wie sich diese Kontextvariablen auf die kognitive Testleistung auswirken.
In PISA 2000 wurde festgestellt, dass der Zusammenhang zwischen Testergebnis und elterlichem Beruf in Deutschland so stark ist wie nirgendwo sonst. In den Folgerunden wurde dieses Ergebnis jedoch nicht repliziert; der stärkste Zusammenhang wurde 2003 in Ungarn, 2006 in der Tschechischen Republik gefunden. Die deutschen Kennwerte (Quantildifferenzen, Gradienten und Korrelationskoeffizienten der Testleistung als Funktion einer Berufsklassifikation oder eines sozial-ökonomisch-kulturellen Indexes) lagen überwiegend im oberen Teil eines breiten Mittelfeldes; die Abweichungen vom OECD-Durchschnitt waren teilweise statistisch insignifikant.
Diesen Auswertungen liegen unterschiedliche Sozialindizes zugrunde, die zum Teil nur den Beruf der Eltern, zum Teil auch deren Bildungsabschlüsse und die Ausstattung des Haushalts mit kulturellen Besitztümern berücksichtigen. Zwischen dem deutschen Konsortium und der internationalen Projektleitung besteht Dissens über die sachgerechte Quantifizierung von sozialem Hintergrund; im deutschen Bericht zu PISA 2006 wird durchgehend ein anderer Index verwendet als im internationalen Bericht.
Ein weiteres Beispiel bei der Dateninterpretation besteht darin, dass sozialer Status und Einwanderungshintergrund stark miteinander korreliert sind. Die Daten alleine sagen nicht, inwieweit schwache Leistungen von Migrantenkindern ihrer unterdurchschnittlichen sozialen Lage oder zum Beispiel ihrer ungenügenden sprachlichen Integration zuzuschreiben sind.
In Deutschland ist überraschend, dass Einwanderer der ersten Generation (454 Punkte, Mathematikleistung 2003) im Schnitt besser abschneiden als im Land geborene Kinder zugewanderter Eltern (2. Generation, 432 Punkte); Schüler ohne Migrationshintergrund: 525 (OECD-weite Vergleichszahlen in derselben Reihenfolge: 475, 483, 523). Daraus wurde teilweise geschlossen, Kinder der zweiten Generation zeigten in Deutschland generell schlechtere Leistungen als Kinder der ersten Generation. Die weitere Aufschlüsselung hat dieses paradoxe Ergebnis jedoch damit erklärt, dass die Anteile der wichtigsten Herkunftsländer innerhalb der Kinder der ersten und der zweiten Generation deutlich unterschiedlich sind (z. B. größerer Anteil Jugendlicher aus der Türkei innerhalb der 2. Generation; vgl. die Erläuterungen zu Schülern mit Migrationshintergrund). Beim selben Herkunftsland sind die Ergebnisse der zweiten Generation durchweg besser als die der ersten.
Ein quantitativ bedeutsames Problem stellen die schwachen Leistungen türkischer Jugendlicher dar (Mathematikleistung 2003: erste Generation 382, zweite Generation 411). Erstaunlicherweise schnitten Schüler mit Migrationshintergrund bei sprachlastigen Aufgaben etwas besser ab als bei relativ sprachfreien; die Gründe dafür sind ungeklärt.[14]
Bei den PISA-Studien 2018 und 2022 waren die durchschnittlichen Testergebnisse der ersten Einwanderergeneration in Deutschland deutlich schlechter als die der zweiten Einwanderergeneration. Die durchschnittlichen Testergebnisse der zweiten Einwanderergeneration waren wiederum deutlich schlechter als die der anderen (einheimischen) Schüler („Non-immigrant students“). Diesen negativen Effekt gibt es in vielen Teilnehmerstaaten. In Deutschland und Österreich ist er besonders gravierend.
In wenigen Ländern, zum Beispiel Australien und Kanada, waren die Ergebnisse der zweiten Einwanderergeneration besser als die der einheimischen Schüler.
Für einige Länder mit wenig Zuwanderung, darunter Japan, Südkorea und Taiwan, wurden keine genauen Statistiken über Schüler mit ausländischen Vorfahren veröffentlicht. In diesen Ländern unterscheiden sich die Testergebnisse der einheimischen Schüler kaum von den durchschnittlichen Gesamtergebnissen.[15][16]
PISA-Studie 2022[16] | ||||
---|---|---|---|---|
Land | Mathematik | |||
Gesamt | Einheimische | Zweite Einwanderergeneration | Erste Einwanderergeneration | |
Deutschland | 475 | 495 (+20) | 457 (−18) | 398 (−77) |
Österreich | 487 | 505 (+18) | 451 (−36) | 439 (−48) |
Schweiz | 508 | 528 (+20) | 477 (−31) |