Äquivalenztest

Motivation

Äquivalenztests stammen aus dem Bereich der Pharmakodynamik bzw. der Medikamentenentwicklung.^[3] Eine Anwendung besteht darin, zu zeigen, dass ein neues Medikament, das billiger ist als verfügbare Alternativen, genauso gut funktioniert wie ein bestehendes Medikament. Im Wesentlichen bestehen Äquivalenztests darin, ein Konfidenzintervall um eine beobachtete Effektgröße herum zu berechnen und Effekte abzulehnen, die extremer sind als die Äquivalenzgrenze, wenn sich das Konfidenzintervall nicht mit der Äquivalenzgrenze überschneidet. Bei zweiseitigen Tests wird eine obere und untere Äquivalenzgrenze angegeben. In Nicht-Unterlegenheitsstudien, in denen das Ziel darin besteht, die Hypothese zu testen, dass eine neue Behandlung nicht schlechter ist als bestehende Behandlungen, wird im Voraus nur eine niedrigere Äquivalenzgrenze festgelegt.

Remove ads

TOST-Verfahren

Ein sehr einfacher Äquivalenztestansatz ist das Verfahren der „zwei einseitigen t-Tests“ (englisch two one sided tests, kurz: TOST).^[4] Im TOST-Verfahren wird eine obere (Δ_U) und eine untere (–Δ_L) Äquivalenzgrenze basierend auf der kleinsten Effektgröße von Interesse (z. B. eine positive oder negative Differenz von d = 0,3) angegeben. Zwei zusammengesetzte Nullhypothesen werden getestet: H₀₁: Δ ≤ -Δ_L und H₀₂: Δ ≥ Δ_U. Wenn beide einseitigen Tests statistisch abgelehnt werden können, können wir zu dem Schluss kommen, dass -Δ_L < Δ < Δ_U, oder dass der beobachtete Effekt innerhalb der Äquivalenzgrenzen liegt und statistisch kleiner ist als jeder als sinnvoll erachtete und praktisch gleichwertige Effekt.^[5] Alternativen zum TOST-Verfahren wurden ebenfalls entwickelt.^[6] Eine kürzlich erfolgte Modifikation von TOST macht den Ansatz bei wiederholten Messungen und der Bewertung mehrerer Variablen möglich.^[7]

Remove ads

Vergleich zwischen t-Test und Äquivalenztest

Zusammenfassung

Kontext

Der Äquivalenztest kann zu Vergleichszwecken aus dem t-Test „induziert“ werden.^[8] Bei einem t-Test zum Signifikanzniveau α_t-Test und welcher für eine Effektgröße d_r eine Power von 1-β_t-Test erreicht, führen beide Tests zu der gleichen Schlussfolgerung, wenn die Parameter Δ=d_r sowie α_equiv.-test=β_t-test und β_equiv.-test=α_t-test zusammenfallen, d. h. die Fehler (Typ I und Typ II) zwischen dem t-Test und dem Äquivalenztest sind vertauscht. Um dies für den t-Test zu gewährleisten, muss entweder die Fallzahlplanung korrekt durchgeführt werden oder durch Anpassung des Signifikanzniveaus α_t-test ein korrigierter Test bestimmt werden.^[8] Beide Ansätze haben praktische Probleme, da die Fallzahlplanung auf nicht überprüfbaren Annahmen hinsichtlich der Standardabweichung beruht und beim Anpassen von α_t-test (sogenannter revised t-Test) numerische Probleme auftreten.^[8] Diese Einschränkungen treten bei Anwendung des Äquivalenztests nicht auf.

Die zweite Abbildung ermöglicht einen Vergleich des Äquivalenztests und des t-Tests, wenn die Fallzahlplanung von Differenzen zwischen der A-priori-Standardabweichung ${\textstyle \sigma }$ und der Standardabweichung aus der Stichprobe ${\textstyle {\hat {\sigma }}}$ betroffen ist. Die Verwendung eines Äquivalenztests anstelle eines t-Tests stellt sicher, dass α_equiv.-test (bzw. β_t-test) beschränkt ist, was auf den t-Test nicht zutrifft. Insbesondere im Fall ${\textstyle {\hat {\sigma }}>\sigma }$ kann im t-Test der Typ II Fehler beliebig groß werden. Demgegenüber führt ${\textstyle {\hat {\sigma }}<\sigma }$ dazu, dass der t-Test strenger ausfällt als der für d_r geplante, was zu zufälligen Nachteilen (z. B. eines Geräteherstellers) führen kann. Dies macht den Äquivalenztest sicherer in der Anwendung.

Remove ads

Motivation

TOST-Verfahren

Vergleich zwischen t-Test und Äquivalenztest

Weiterführende Literatur

Einzelnachweise

Wikiwand - on