• Vorklinik
  • Physikum-Fokus

Medizinische Statistik und Testtheorie

Abstract

Die evidenzbasierte Medizin hat den Anspruch, nach objektiven Kriterien und aktuellem Wissensstand die beste Behandlung umzusetzen. Grundlage dafür sind Daten, die in Studien erhoben wurden. Die medizinische Statistik beschäftigt sich nun damit, wie man diese Daten auswertet, darstellt und die richtigen Schlüsse aus ihnen zieht. In diesem Kapitel wird erläutert, wie man die verschiedenen Größen eines Experiments in Form von Variablen formalisiert, wie man die Verteilung der Daten über Lage- und Streumaße charakterisieren kann und mit welchen Parametern das Ergebnis schließlich beschrieben wird.

Ein verwandtes Gebiet ist die Testtheorie: Hier wird untersucht, wie man die Ergebnisse eines diagnostischen Tests interpretiert. Dazu werden die wichtigen Begriffe Sensitivität, Spezifität und prädiktiver Wert eingeführt, die nicht nur für die Forschung, sondern auch für die Deutung von Ergebnissen in der Klinik von außerordentlicher Relevanz sind.

Grundbegriffe und deskriptive Statistik

Während physikalische Größen durch einen geeigneten Versuchsaufbau direkt messbar sind, lassen sich theoretische Konstrukte wie Intelligenz nicht unmittelbar quantifizieren. Um solche Merkmale zu erfassen, bedient man sich empirisch beobachtbarer Größen, die Indikatoren genannt werden. Diese Übersetzung eines Untersuchungsgegenstands in messbare Variablen wird Operationalisierung genannt und ist oft der wichtigste und schwierigste Teil einer Studie.

Beobachten und Messen von Konstrukten

  • Latentes Konstrukt (= latentes Merkmal): Ein nicht direkt beobachtbares und messbares theoretisches Konzept wie Gesundheit, Intelligenz, Lebensqualität oder Depression, das nur durch Indikatoren gemessen werden kann
  • Operationalisierung: Bezeichnet die Vorgehensweise zur Messung sowie die verwendeteten Messinstrumente, die zur Messung eines theoretischen Konstrukts eingesetzt werden

Variablen

Im Rahmen von Studien werden Variablen beobachtet und gemessen. Den Rahmen bildet dabei die unabhängige Variable, anhand der man die abhängige Variable erklären möchte; daher kann man die unabhängige auch als erklärende und die abhängige als erklärte Variable bezeichnen. Darüber hinaus unterscheidet man Drittvariablen, die das Ergebnis der Studie beeinflussen können.

  • Unabhängige (=erklärende) Variable: Stellgröße, die in einem Experiment vom Versuchsleiter gezielt variiert wird, um die Auswirkungen auf die abhängige Variable zu beobachten
  • Abhängige (=erklärte) Variable: Variable, deren – durch Variation der unabhängigen Variablen – herbeigeführte Veränderung beobachtet wird
  • Störvariable (=confounder): In der Studie nicht berücksichtigte Variable, die jedoch das Ergebnis beeinflussen kann
  • Mediatorvariable: Steht als Bindeglied zwischen unabhängiger und abhängiger Variable
  • Moderatorvariable: Beeinflusst den Effekt der unabhängigen Variable und somit das Ergebnis
  • Risikoindikator: Variablen, die auf eine Erkrankung hinweisen. Sie werden in der Epidemiologie rein deskriptiv festgestellt und zeigen anders als Risikofaktoren keinen kausalen Zusammenhang.

Skalierung

Grundsätzlich kann man alle Größen in Variablen zusammenfassen. Für das Rechnen und die statistische Auswertung macht es aber natürlich einen Unterschied, ob die Variablen Zahlen enthalten (wie Körpergröße) oder Kategorien („Augenfarbe“). Genauer kann man diese Unterschiede über die sog. Skalenniveaus beschreiben: Skalenniveaus geben Auskunft darüber, welche Operationen mit einer Variable möglich sind – je höher das Skalenniveau ist, desto mehr Rechenoperationen sind möglich. Höhere Skalenniveaus ermöglichen dabei immer auch alle Operationen der niedrigeren. Üblicherweise werden vier Skalenniveaus unterschieden.

Skalenniveau

Das Skalenniveau einer Variablen gibt die Art ihres möglichen Inhalts sowie die mit ihr durchführbaren Rechenoperationen an. Es besteht eine hierarchische Anordnung (aufgelistet von niedrig nach hoch)

  1. Nominalskala
    • Rein qualitative Skala („Kategorien“)
    • Nur Häufigkeitsbestimmung möglich, keine weiteren Rechenoperationen
    • Beispiele: Augenfarbe, Lieblingstier, Geschlecht, Herkunftsland
  2. Ordinalskala („Ordnung“)
    • Die verschiedenen Merkmale der Variable lassen sich in eine sinnvolle Reihenfolge bringen, ohne dass der Abstand zwischen den Rängen in Zahlen ausgedrückt wird
    • Zusätzlich zur Häufigkeitsbestimmung lässt sich auch größer und kleiner definieren
    • Beispiele: Art des Schulabschlusses, Schulnoten, Platzierung im Autorennen, Tumorstadien I–IV
  3. Intervallskala
    • Variable nimmt einen Zahlenwert an
    • Zusätzlich zu Häufigkeitsbestimmung und Ordnung lässt sich hier auch ein Abstand (= Intervall) als Wert ausdrücken
    • Beispiele: Jahreszahl, Temperatur in °C
  4. Verhältnisskala (Ratioskala, Rationalskala, Proportionalskala)
    • Höchstes Skalenniveau
    • Variable nimmt auch hier einen Zahlenwert an
    • Alle Grundrechenoperationen möglich, also im Gegensatz zur Intervallskala auch noch Multiplikation und Division
    • Beinhaltet einen natürlichen Nullpunkt: Die 0 muss also ein möglicher Wert der Variable sein und muss auch im Bezug auf die beschriebene Größe Sinn ergeben
    • Beispiele: Körpergewicht oder -größe, Blutzuckerspiegel, Zeitdauer, Entfernung, Einkommen

Die Reihenfolge vom niedrigsten zum höchsten Skalenniveau kann man sich gut mithilfe des französischen Wortes „noir“ (= schwarz) merken: Nominal-, Ordinal-, Intervall- und Rationalskala.

Lagemaße

Lagemaße sind einfache Parameter, die Auskunft über die gemessenen Werte einer Variablen geben. Das bekannteste Lagemaß im Alltag ist wahrscheinlich der Durchschnittswert. Je nach Skalenniveau können aber nur bestimmte Lagemaße berechnet werden . Die Lagemaße Modalwert, Median und Mittelwert werden zusammenfassend auch als Maße der zentralen Tendenz bezeichnet.

Modalwert (= Modus)

Als Modalwert wird der häufigste Wert einer Verteilung bezeichnet.

  • Definition: Häufigster Wert einer Verteilung
  • Kann bei jedem Skalenniveau bestimmt werden
  • Vorteil: Unempfindlich gegen Extremwerte
  • Nachteile
    • Gibt keine Informationen über andere Merkmalsausprägungen
    • Bei mehrgipfligen Häufigkeitsverteilungen ist er kaum zu verwerten

Quantile (Prozentränge, Perzentilen)

Ein Quantil bezeichnet einen Wert, der eine Menge in zwei Gruppen teilt: Ein Anteil der Menge ist kleiner als der definierte Wert, der Rest größer. Häufig werden spezielle Quantile wie der Median und die Quartile verwendet. Prinzipiell kann man aber zu jeder Zahl zwischen 0 und 100% ein Quantil betrachten; diese allgemeinen Quantile bezeichnet man dann als Perzentile oder Prozentränge.

(Arithmetischer) Mittelwert

Mittelwerte sind bestimmte Durchschnittswerte, die aus einer Verteilung berechnet werden. In der medizinischen Statistik kommt hauptsächlich der arithmetische Mittelwert zur Anwendung.

  • Durchschnittswert, der sich ergibt, wenn alle Einzelwerte addiert werden und durch die Anzahl der Einzelwerte geteilt werden
  • Benötigt mindestens intervallskalierte Variablen (für Intervall- und Verhältnisskala anwendbar)
  • Vorteil: Nutzt alle Informationen der Verteilung
  • Nachteil: Empfindlich gegenüber Extremwerten
    • Beispiel
      • 2 + 4 + 5 + 6 + 33 = 50
      • 50 / 5 = 10
      • Der Mittelwert ist 10

Auf das Skalenniveau bezogen ist für eine Ordinalskala der Median zur Beschreibung der zentralen Tendenz am besten geeignet. Für die Nominalskala ist es der Modalwert, für die Intervall- und Verhältnisskala der arithmetische Mittelwert.

Beispiel Lagemaße

Wir erfragen das Alter aller 24 Teilnehmer eines Kurses und erhalten folgende Verteilung

Alter 20 21 22 24 25 50
Häufigkeit 1 8 6 5 3 1

Nun bestimmen wir die oben eingeführten Lagemaße.

  • Skalenniveau: Verhältnisskala
    • Sinnvolle Ordnung
    • Abstände messbar
    • Verhältnisse bestimmbar
    • Natürlicher Nullpunkt vorhanden
  • Modus: 21
    • 21 ist das häufigste Alter
  • Median: 22
    • 22 teilt das Teilnehmerfeld in zwei gleich große Hälften
  • Quartile: X25 = 21 und X75 = 24
    • 25% sind nicht älter als 21 und 75% sind nicht älter als 24
  • Mittelwert: 23,5
    • (1×20 + 8×21 + 6×22 + 5×24 + 3×25 + 1×50) / 24 ≈ 23,5

Man sieht, dass sich die Werte der Lagemaße etwas unterscheiden. Das liegt daran, dass sie unterschiedlich sensibel auf Ausreißer reagieren. An dem hohen Mittelwert von ca. 23,5 ist hauptsächlich der eine 50-Jährige „schuld“. Es folgt auch, dass Lagemaße alleine nicht zur Charakterisierung einer Verteilung ausreichen – entscheidend ist auch, wie eng die Werte um die Mitte verteilt sind.

Streuungsmaße (= Maße der Variabilität)

Oft reichen die Lagemaße zur Charakterisierung eines Datensatzes nicht aus. Man bedient sich verschiedener Streuungsparameter als Maß dafür, wie sehr die Werte um den Mittelwert schwanken. Die üblichsten Streuungsmaße sind

  • Spannweite: Der Abstand Xmax - Xmin zwischen Maximum und Minimum ist nur ein sehr grobes Maß für die Streuung und sehr empfindlich gegenüber Ausreißern.
  • Quartilsabstand: Der Abstand zwischen dem 75%-Quartil X75 und dem 25%-Quartil X25 berücksichtigt die "Ränder" nicht und ist so weniger anfällig für Ausreißer.
  • Varianz: Diese Größe berechnet sich aus der Summe der quadrierten Abweichungen vom Mittelwert (M), geteilt durch die Anzahl der Werte (n).
    • Allgemeine Formel der Varianz:
      • Varianz = [(M - X1)2 + (M - X2)2 + … + (M - Xn)2] / n
    • Warum wird quadriert?
      • Durch die Quadrierung werden große Abweichungen stärker gewichtet als kleine
    • Problem der Quadrierung
      • Die Einheit der Variablen wird mitquadriert - dadurch ist die Varianz schwer verwertbar
      • Lösung: Berechnung der Standardabweichung
  • Standardabweichung (SD): Zieht man die Wurzel aus der Varianz, erhält man die Standardabweichung. Sie ist ein Maß dafür, wie weit die Einzelwerte durchschnittlich vom Mittelwert entfernt liegen.

Beispiel Streuungsmaße

Wir betrachten wieder die Altersverteilung des Kurses (siehe oben) und bestimmen jetzt zusätzlich die Streumaße.

Alter 20 21 22 24 25 50
Häufigkeit 1 8 6 5 3 1
  • Spannweite: 30
    • Höchster Wert (50) - niedrigster Wert (20) = 30
  • Quartilsabstand: 3
    • X75(24) - X25(21) = 3
  • Varianz: ≈ 33
    • ((23.5416666667 - 20)2 + 8×(23.5416666667 - 21)2 + 6×(23.5416666667 - 22)2 + 5×(23.5416666667 - 24)2 + 3×(23.5416666667 - 25)2 + (23.5416666667 - 50)2) / 24 ≈ 33
  • Standardabweichung: 5,7
    • √33 ≈ 5,7

Die hohe Standardabweichung von 5,7 sowie die sehr große Spannweite von 30 zeigen, dass die Werte deutlich schwanken. Am Quartilsabstand von 3 ist zu sehen, dass das wahrscheinlich an einzelnen Ausreißern (dem 50-Jährigen!) liegt; die mittleren 50% liegen recht dicht beieinander.

Tests und Testgütekriterien

In der psychologischen und medizinischen Diagnostik werden Tests angewandt, die z.B. in Form eines Fragebogens auftreten. Sie ermöglichen quantitative Aussagen über Konstrukte, also über Merkmale, die nicht direkt gemessen werden können. Die Entwicklung eines solchen Tests beruht auf der Auswahl sog. Items (Testaufgaben), die anhand von Gütekriterien auf ihre Qualität hin überprüft werden.

Psychologischer Test

  • Dient der quantitativen Erfassung psychischer Merkmale
  • Besteht aus einer bestimmten Anzahl an Items (= Testaufgaben)
    • Kriterien der Itemselektion
      • Schwierigkeitsindex: Lösungswahrscheinlichkeit eines Items
      • Trennschärfekoeffizient: Aussagekraft eines Items über das Gesamtergebnis

Gütekriterien

Objektivität

  • Definition: Maß für die Unabhängigkeit der Testergebnisse von Studienleiter, Versuchsleiter bzw. Untersucher
  • Kriterien für hohe Objektivität
    • Standardisierter Test
    • Stets gleiche Testergebnisse auch bei Auswertung/Durchführung/Interpretation durch verschiedene Personen

Reliabilität (Zuverlässigkeit)

  • Definition: Maß für die Reproduzierbarkeit von Testergebnissen unter gleichen Bedingungen
  • Kann als Wert zwischen 0 und 1 angegeben werden
    • Entspricht die Varianz der Messwerte ausschließlich der Varianz der wahren Werte, ist der Wert 1
    • Beruht die Varianz der Messwerte vollständig auf Messfehlern, ist der Wert 0
    • Je näher die Reliabilität also an 1 ist, desto verwertbarer ist das Ergebnis
  • Methoden zur Abschätzung der Reliabilität

Validität

  • Definition: Maß für die Belastbarkeit einer bestimmten Aussage
  • Validität von Studien: Man unterscheidet zwischen
    • Interner Validität: Werden die beobachteten Veränderungen der abhängigen Variable (Krankheit) tatsächlich von der unabhängigen Variable (Exposition, Risikofaktor) verursacht (und nicht durch Störgrößen oder Zufall)? Inwieweit lässt sich also ein kausaler Zusammenhang aus dem Studienergebnis ableiten?
      • Eine hohe interne Validität wird u.a. erreicht durch
        • Studiengruppen mit ähnlichen Merkmalen (Alter, Geschlecht, Grunderkrankungen etc.)
        • Valide und verlässliche Messinstrumente
        • Vermeidung systemischer Fehler (Bias) in der Planung und Durchführung der Studie
    • Externer Validität: Lassen sich die Studienergebnisse von der kleinen Studienpopulation auf größere Teile der Bevölkerung übertragen, für die diese Studie auch gelten soll? Ist diese Studie also repräsentativ?
      • Hohe externe Validität zeichnet sich bspw. aus durch:
        • Hohe Korrelation der Messwerte eines neuen Testverfahrens mit einem bereits bewährten Testverfahren
        • Studienergebnisse lassen sich in einer zweiten seperaten Studie mit anderen Studienteilnehmern reproduzieren
        • Hohe interne Validität
    • Prädiktive Validität: Lassen sich basierend auf den Testergebnissen Aussagen über die Zukunft ableiten?
    • Konvergente Validität: Korrelieren Tests für zusammenhängende Konstrukte auch miteinander?
    • Diskriminante Validität: Bildet das Gegenstück zur konvergenten Validität: Tests für Konstrukte, die nicht zusammenhängen, sollten auch nicht korrellieren

Die Hierarchie der Gütekriterien: Die Objektivität eines Tests ist Voraussetzung für die Reliabilität. Die Reliabilität ist Voraussetzung für die Validität!

Normierung

  • Definition: Eichung des Tests
  • Ziel: Bessere Einordnung der Ergebnisse
  • Durchführung: Testung einer repräsentativen Stichprobe

Vierfeldertafel

Bei einem Test sind grundsätzlich vier Ergebnisse zu unterscheiden: Die positiv getesteten Personen lassen sich weiter in richtig positiv und falsch positiv unterteilen, die negativ getesteten analog in richtig negativ und falsch negativ. Ordnet man diese in einer Tabelle an, erhält man die sog. Vierfeldertafel, an der man wichtige Kennzahlen von Tests demonstrieren kann.

Erkrankt Gesund Alle Testergebnisse
Test positiv a (richtig positiv) b (falsch positiv) a + b (alle Patienten mit positiven Testergebnissen) Positiver Vorhersagewert = a / (a + b)
Test negativ c (falsch negativ) d (richtig negativ) c + d (alle Patienten mit negativen Testergebnissen) Negativer Vorhersagewert = d / (c + d)
Alle Gesunden/Kranken a + c (alle erkrankten Patienten) b + d (alle gesunden Patienten) a + b + c + d (alle Patienten)
Richtig-positiv-Rate = a / (a + c) = Sensitivität Falsch-positiv-Rate = b / (b + d)
Falsch-negativ-Rate = c / (a + c) Richtig-negativ-Rate = d / (b + d) = Spezifität

Sensitivität (= Empfindlichkeit, Trefferquote)

  • = a / (a + c)
  • Anteil derer, die bei einem Test richtigerweise als "positiv" getestet wurden, im Verhältnis zur Zahl aller Erkrankten
  • Gibt an, wie viele tatsächlich Erkrankte durch den Test als krank erkannt werden ("Richtig-positiv-Rate").
  • Änderungssensitivität: Gibt an, wie sensitiv ein Test auf Änderungen der Messgröße reagiert

Spezifität

  • = d / (b + d)
  • Anteil derer, die von einem Test richtigerweise als "negativ" getestet wurden, im Verhältnis zur Menge aller Gesunden
  • Gibt an, wie viele tatsächlich Gesunde durch den Test als gesund erkannt wurden ("richtig-negativ-Rate").

Positiver prädiktiver Wert (= Genauigkeit, Relevanz, positiver Vorhersagewert)

  • = a / (a + b)
  • Wahrscheinlichkeit, bei positivem Testergebnis tatsächlich krank zu sein
  • Allgemeine Berechnung
    • Wahrscheinlichkeit, dass eine Person richtig positiv getestet wird, geteilt durch die kombinierte Wahrscheinlichkeit eines positiven Ergebnisses, also richtig positiv + falsch positiv
  • Abhängig von der Prävalenz einer Erkrankung in der Bevölkerung

Negativ prädiktiver Wert (= Trennfähigkeit)

  • Wahrscheinlichkeit, bei negativem Testergebnis tatsächlich gesund zu sein
  • Negativer Vorhersagewert = d / (c + d)
  • Ebenfalls abhängig von der Prävalenz einer Erkrankung in einer Bevölkerung

Um ein Testergebnis auf einen Patienten zu übertragen, sind die prädiktiven Werte wichtig: Sie berücksichtigen zusätzlich noch, wie häufig die getestete Krankheit generell ist. Will man einem Patienten erläutern, was das Testergebnis für ihn bedeutet, eignen sich die prädiktiven Werte deutlich besser als Sensitivität und Spezifität!

Beispiel

Wir betrachten einen HIV-Test (Immunoassay). Dieser habe eine Sensitivität von 99,9% und eine Spezifität von 99,8%. Die Prävalenz von HIV in Deutschland ist etwa 100 pro 100.000 Einwohner = 0,1%.

  • Sensitivität: 99,9%
    • Interpretation: Wenn ein HIV-positiver Proband getestet wird, ist der Test zu 99,9% auch positiv
  • Spezifität: 99,8%
    • Interpretation: Wenn ein HIV-negativer Proband getestet wird, ist der Test zu 99,8% auch negativ
  • Positiver prädiktiver Wert: 33%
  • Berechnung über PPW = a / (a + b)
    • a = richtig positiv = Wahrscheinlichkeit, dass der Patient HIV hat (= Prävalenz) × Wahrscheinlichkeit, dass er dann positiv getestet wird (= Sensitivität)
    • b = falsch positiv = Wahrscheinlichkeit, dass der Patient kein HIV hat (= 1 - Prävalenz) × Wahrscheinlichkeit, dass er dann trotzdem positiv getestet wird (= 1 - Spezifität)
    • PPW = (0,999 × 0,001) / (0,999 × 0,001 + 0,002 × 0,999) = 33%
    • Interpretation: Wenn eine beliebige Person positiv getestet wird, ist sie zu 33% tatsächlich HIV-positiv
  • Negativer prädiktiver Wert: 99,999899699%
    • Berechnung über NPW = d / (c + d)
    • d = richtig negativ = Wahrscheinlichkeit, dass der Patient kein HIV hat (= 1 - Prävalenz) × Wahrscheinlichkeit, dass er dann auch negativ getestet wird (= Spezifität)
    • c = falsch negativ = Wahrscheinlichkeit, dass der Patient HIV hat (= Prävalenz) × Wahrscheinlichkeit, dass er dann trotzdem negativ getestet wird (= 1 - Sensitivität)
    • NPW = (0,998 × 0,999) / (0,998 × 0,999 + 0,001 × 0,001) = 0,99999899699
    • Interpretation: Wenn eine beliebige Person negativ getestet wird, ist sie zu 99,999899699% tatsächlich HIV-negativ

Hier sehen wir, wie wichtig es ist, zwischen Spezifität und positivem prädiktiven Wert zu unterscheiden. Eine Spezifität von 99,8% erscheint sehr gut. Wegen der niedrigen Prävalenz von HIV ist es aber trotzdem noch wahrscheinlicher (67%!), dass ein positives Ergebnis falsch positiv ist.

CAVE: Diese Berechnung gilt nur, wenn eine beliebige Person ohne Indikation getestet wird. Gehört der Patient einer Risikogruppe an, erhöht sich die gruppenspezifische Prävalenz und damit auch der positive prädiktive Wert!

Vergleich von Risiken

Risiko in der Epidemiologie

In epidemiologischen Untersuchungen versucht man, eine Exposition mit einem Ereignis (wie einer Krankheit) zu verknüpfen. Man erhält also primär zwei Gruppen (exponiert und nicht exponiert), die sich weiter aufteilen in erkrankt und nicht erkrankt. Ziel ist darzustellen, ob die Exposition mit einem erhöhten Krankheitsrisiko verbunden ist oder nicht. Anfangen kann man wieder mit einer Vierfeldertafel

Anzahl der Personen Exponiert Nicht exponiert Gesamt
erkrankt a b a + b
gesund c d c + d
gesamt a + c b + d

Nun kann man verschiedene abgeleitete Größen berechnen, die Auskunft darüber geben, wie sich das Risiko in den beiden Gruppen verhält.

Absolutes Risiko (AR)

  • Erkrankungsrisiko in einer bestimmten Population (Inzidenz)
  • Anzahl der Neuerkrankungen pro Jahr pro 100.000 Einwohner
  • Entspricht näherungsweise (a + b) / (a + b + c + d)

Relatives Risiko (RR)

  • Vergleicht das Risiko der Exponierten mit dem der Nichtexponierten
  • Definition: RR = (a / (a + c)) / (b / (b + d))
    • Relatives Risiko (RR) = Risiko bei Exponierten/Risiko bei Nichtexponierten
    • Gibt an, um wie viel größer das Risiko für eine Erkrankung durch vorliegenden Risikofaktor wird.
  • Beispiel
    • 4% aller beobachteten Patienten ohne Nikotinkonsum erleiden einen Herzinfarkt.
    • 6% aller beobachteten Patienten mit Nikotinkonsum erleiden einen Herzinfarkt.
    • RR = 6% geteilt durch 4% = 1,5
    • → Raucher haben in diesem Beispiel ein 1,5-faches Risiko, einen Infarkt zu erleiden.

Zuschreibbares Risiko (= Überschussrisiko/attributables Risiko)

  • Der Anteil des Risikos, der tatsächlich auf den Risikofaktor zurückzuführen ist
    • Formel: Risiko der Exponierten - Risiko der Nichtexponierten = zuschreibbares/attributables Risiko

Odds (R)

  • Chance, dass ein Ereignis eintritt = p
  • Chance, dass ein Ereignis nicht eintritt = q
    • q = 1 - p
  • R = p / q
  • Beispiele
  • Odds Ratio (OR)
    • Verhältnis der Chancen zweier Gruppen für das Auftreten eines Ereignisses
    • Erlaubt eine Schätzung des relativen Risikos bei unbekannter Inzidenz (insb. bei Fall-Kontroll-Studien).
    • Berechnung: Quotient aus der Chance der Betroffenen und der Nichtbetroffenen
      • OR = (a / c) / (b / d) = (a x d) / (b x c)
    • Interpretation
      • OR = 1: Chancengleichheit
      • OR > 1: Chance der Exponierten größer
      • OR < 1: Chance der Nichtexponierten größer

Risikoreduktion durch Interventionen

Wenn man eine Intervention durchführt (bspw. die Gabe einer Blutdruckmedikation), möchte man im Anschluss wissen, ob dadurch eine Verbesserung erreicht wurde. Dazu kann man untersuchen, ob die Intervention zu einer Reduktion eines bestimmten Risikos (z.B. das Risiko, an einem Herzinfarkt zu versterben) geführt hat.

Absolute Risikoreduktion (ARR)

  • Gibt die absolute Änderung des Risikos durch eine Intervention an
  • ARR = Risiko der Kontrollgruppe - Risiko der Interventionsgruppe
  • Beispiel: Eine Änderung des Risikos von 3% auf 2,5% ist eine absolute Änderung des Risikos von (3 - 2,5 =) 0,5 Prozentpunkten

Relative Risikoreduktion (RRR)

  • Gibt die prozentuale Abnahme des Risikos durch eine Intervention an
  • RRR = 1 - (Risiko der Interventionsgruppe / Risiko der Kontrollgruppe)
  • Beispiel: Eine Änderung der Mortalität von 3 auf 2,5% ist eine relative Risikoreduktion von RRR = 1 - (2,5 / 3) = 1 - 0,83 = 0,17 = 17%
  • Vergleich RRR und ARR
    • Beispiel: Eine Therapie führt in der Interventionsgruppe von 1.000 Menschen zu vier statt zu sechs Todesfällen. Das relative Risiko der Interventionsgruppe beträgt 0,4% / 0,6% = 0,67 = 67%, das der Kontrollgruppe definitionsgemäß 1 oder 100%. Die relative Risikoreduktion beträgt demnach RRR = 1 - 0,67 = 0,33 = 33%. Die absolute Risikoreduktion beträgt ARR = 0,6% - 0,4% = 0,2%. Dies ist scheinbar wesentlich geringer (wobei hier aber eben einfach nur verschiedene Parameter betrachtet werden, die die gleichen Zahlen benutzen).

Number-needed-to-treat (auch: NNT)

  • Gibt an, wie viele Patienten in einem bestimmten Zeitraum therapiert werden müssen, damit statistisch gesehen genau ein Ereignis verhindert wird
  • Eine niedrige NNT spricht für eine effektive Therapie (große absolute Risikoreduktion)
  • Berechnung: NNT = Kehrwert der absoluten Risikoreduktion (ARR)
  • Bei einer NNT = 1 verhindert jede durchgeführte Therapie das Eintreten eines Ereignisses
  • Beispiel
    • ARR: Eine Änderung des Risikos von 3% auf 2,5% ist eine absolute Änderung des Risikos von (3 - 2,5 =) 0,5 Prozentpunkten (= 0,5 / 100 = 0,005)
    • NNT = Kehrwert der ARR = 1 / 0,005 = 200 (Es müssen also 200 Patienten behandelt werden, damit ein Ereignis verhindert wird)
  • Number-needed-to-screen: Gibt an, wie viele Patienten in einem bestimmten Zeitraum einer Screeninguntersuchung unterzogen werden müssen, damit statistisch gesehen genau ein Krankheitsfall erkannt wird
  • Number-needed-to-harm: Gibt an, wie viele Patienten in einem bestimmten Zeitraum einem Risikofaktor ausgesetzt sein müssen, damit statistisch gesehen genau ein Krankheitsfall auftritt

Statistische Tests

In einer wissenschaftlichen Studie werden Daten erhoben, um eine Hypothese zu untersuchen. Der Datenerhebung folgt die Auswertung, bei der es vorrangig um die Beantwortung der folgenden Fragen geht:

  1. Gibt es einen Unterschied zwischen den untersuchten Gruppen?
  2. Beruht ein Unterschied auf der untersuchten Hypothese („Alternativhypothese trifft zu“) oder nur auf Zufall („Nullhypothese trifft zu“)?
  3. Wie relevant ist ein Unterschied?

Hierfür werden statistische Tests benutzt. Je nachdem um welche Datentypen es sich handelt und wie diese verteilt sind, gibt es eine sehr große Anzahl verschiedener Tests.

Statistische Signifikanz

Signifikanz bezeichnet einen Unterschied zwischen zwei Ergebnissen, der zu extrem ist, um noch als zufällig gelten zu können. Sie ist ein Kriterium für die Aussagekraft eines Ergebnisses. Ob ein Ergebnis als signifikant gilt, hängt vom Signifikanzniveau ab, das für die entsprechende Studie gewählt wurde: Standard ist ein Signifikanzniveau von 5%, was bedeutet, dass die Wahrscheinlichkeit, dass ein positives Ergebnis durch Zufall zu Stande gekommen ist, unter 5% beträgt.

Signifikanzniveau α

  • Legt eine Irrtumswahrscheinlichkeit fest, die noch als akzeptabel gilt
  • Üblich: α = 0,05
  • Bedeutung: „Ein Unterschied ist auf dem Niveau von 0,05 signifikant“ ↔ Die Wahrscheinlichkeit, dass ein mindestens so großer Unterschied nur zufällig ist, ist unter 0,05

p-Wert (von engl. probability)

  • Entspricht der Wahrscheinlichkeit, dass ein mindestens so starker Unterschied wie im Testergebnis nur durch Zufall zustande kommt (Fehler 1. Art)
  • Übliche Darstellung der berechneten Signifikanz
  • Wird durch einen passend gewählten statistischen Test aus den vorliegenden Daten berechnet
  • Wenn der gemessene p-Wert unter dem geforderten Signifikanzniveau liegt, sagt man, dass ein Unterschied signifikant ist
  • Ein niedriger p-Wert spricht für die Alternativhypothese, bei einem hohen p-Wert sollte die Nullhypothese beibehalten werden

Teststärke (Power)

  • Gibt an, wie gut ein statistischer Test geeignet ist, einen tatsächlichen Unterschied nachzuweisen
  • Entspricht der Wahrscheinlichkeit, dass ein Test einen tatsächlich vorhandenen Unterschied auf einem vorgegebenen Signifikanzniveau auch nachweist
  • Wird größer durch
  • Nutzen: Wird zur Planung einer Studie benötigt

Statistisch signifikant bedeutet, dass ein Unterschied (mit großer Wahrscheinlichkeit) nicht nur durch Zufall erklärbar ist. Daraus ist keine Relevanz ableitbar!

Effektstärke

Wenn man einen statistisch signifikanten Unterschied zwischen zwei Gruppen nachgewiesen hat, stellt sich die Frage, ob dieser Unterschied auch relevant ist. Das ist natürlich stark von der untersuchten Hypothese abhängig, aber mit Cohens d gibt es einen einfachen Parameter, der eine Abschätzung ermöglicht.

Cohens d zeigt, wie stark sich die Mittelwerte zweier Gruppen unterscheiden. Ab einem Betrag von 0,8 spricht man von einem deutlichen Unterschied!

Cohens d kann beliebige Werte von -∞ bis +∞ annehmen!

Korrelation

Man sagt, dass Größen korrelieren, wenn die Veränderung der einen Größe mit einer Veränderung der anderen Größe einhergeht. Ob Größen korrelieren und wie sie das tun, lässt sich über Korrelationstests beschreiben. Ein einfacher Parameter hierfür ist der Korrelationskoeffizient.

Korrelationstest

  • Untersucht einen Zusammenhang zwischen Merkmalen
    • Wie verändert sich y, wenn x verändert wird?
    • Eine vollständige Korrelation liegt vor, wenn die Änderungen von y vollständig durch die Änderungen von x erklärt werden können. Kein Zusammenhang besteht, wenn eine Änderung von x keinen Einfluss auf y hat.

Korrelationskoeffizient

  • Maßzahl der Stärke einer Korrelation
  • Eigenschaften: Dimensionslos und liegt zwischen -1 und +1
  • Bei ordinalskalierten Daten: Rangkorrelationskoeffizient nach Spearman
    • "Ungenauer", nicht alle Informationen können verwendet werden
    • Extremwerte fallen weniger ins Gewicht
  • Bei intervallskalierten Daten: Linearer Korrelationskoeffizient nach Pearson
    • Exakter, jedoch anfälliger für Verzerrungen durch Extremwerte

Positive Korrelation

  • Je höher y, desto höher ist auch x
  • Werte zwischen 0 und 1 zeigen eine positive Korrelation
  • Bei einem maximalen positiven Zusammenhang hat der Korrelationskoeffizient den Wert +1

Negative Korrelation

  • Je höher y, desto niedriger ist x
  • Werte zwischen 0 und -1 zeigen eine negative Korrelation
  • Bei einem maximalen negativen Zusammenhang hat der Korrelationskoeffizient den Wert -1

Der Korrelationskoeffizient beschreibt, wie deutlich ein Zusammenhang zwischen zwei Größen ist; ab einem Wert von etwa +/-0,7 spricht man von einem starken positiven/negativen Zusammenhang!