• Vorklinik
  • Physikum-Fokus

Grundlagen wissenschaftlicher Studien

Abstract

Die Medizin ist eine praxisorientierte Disziplin, die ihre Erkenntnisse zu weiten Teilen aus der Anwendung selbst gewinnt (Versuch-und-Irrtum-Vorgehen). Diesen Informationsstand unterfüttert die medizinische (und psychologische) Forschung mithilfe wissenschaftlicher Studien, deren methodische Grundlagen hier dargestellt werden. Wichtige Ausgangsbasis für eine aussagekräftige Studie ist die geeignetete Fragestellung bzw. eine überprüfbare Hypothese. Zudem gilt es festzulegen, was stellvertretend für das meist nicht direkt quantifizierbare Merkmal (wie z.B. „Depression“) gemessen werden soll (sog. Indikatoren). Das richtige Studiendesign stellt sicher, dass möglichst wenig Störeffekte das Ergebnis verfälschen, die Wahl der Stichprobe spielt hierbei eine große Rolle. Am Ende steht die Auswertung der erhaltenen Daten und der Vergleich mit Ergebnissen anderer Studien.

Hypothesenbildung

Vor der Durchführung einer wissenschaftlichen Studie wird eine Hypothese festgelegt. Sie ist eine Annahme über den Zusammenhang zwischen der zu untersuchenden Variablen und den Ausgang der Studie. Ob diese Hypothese dann auch zutrifft, wird anschließend mittels der Studie wissenschaftlich untersucht. Ausreichend geprüfte und gesicherte Hypothesen führen zur Theoriebildung.

Hypothese und Theorie

Gibt es hinreichende Belege und keine Widerlegungen, kann aus einer Hypothese eine Theorie werden. Die Begriffe Induktion und Deduktion beschreiben, wie man zu einer Hypothese gelangen kann.

  • Deduktion
    • Schluss von einer allgemeinen Aussage auf einen Einzelfall
    • Beispiel: Ein Arzt weiß, dass ein Medikament Übelkeit verursachen kann, und schließt daraus, dass die Übelkeit seines Patienten von diesem Medikament kommt.
  • Induktion:
    • Schluss von einem Einzelfall auf eine allgemeine Aussage
    • Beispiel: Ein Arzt bemerkt, dass einigen Patienten durch ein Medikament übel wird, und schließt daraus, dass das Medikament als Nebenwirkung generell Übelkeit hervorruft.
  • Falsifizierbarkeit
    • Eine Aussage, die man widerlegen kann, nennt man falsifizierbar
    • Eine wissenschaftliche Hypothese/Theorie muss falsifizierbar sein
    • Falsifikationsprinzip: Wissenschaftlicher Fortschritt basiert auf der Widerlegung nicht zutreffender Aussagen. Das Falsifikationsprinzip geht auf den Erkenntnistheoretiker Karl Popper zurück.

Kausalität in der Medizin

Eine Möglichkeit, um zu einer Hypothese zu gelangen, ist eine vermutete Kausalität. Durch Beobachtungen kann man bspw. zu der Idee kommen, dass eine bestimmte Exposition zu einer Krankheit führt. Zur Bewertung einer derartigen Kausalitätshypothese sind in der Medizin die neun Kausalitätskriterien nach Bradford-Hill verbreitet.

Die Kriterien sind keine Voraussetzungen für eine Kausalität, sie sollen bei der kritischen Einschätzung helfen.

  • Bradford-Hill-Kriterien: Kritische Bewertung eines möglichen Kausalzusammenhangs in der Medizin
    • Effektstärke: Ein starker, statistisch signifikanter Effekt macht einen Zusammenhang wahrscheinlicher (aber ein kleiner Effekt schließt ihn nicht aus).
    • Reproduzierbarkeit: Ein Zusammenhang, der unter verschiedenen Bedingungen auffällt
    • Spezifität: Eine bestimmte Ursache führt zu einer bestimmten Wirkung.
    • Zeitlicher Zusammenhang: Die Exposition muss vor der vermuteten Folge liegen.
    • Dosisabhängigkeit: Stärkere Exposition zeigt stärkeren Effekt.
    • Biologische Plausibilität: Der Effekt kann durch einen biologischen Mechanismus erklärt werden.
    • Kohärenz: Der Zusammenhang ist vereinbar mit anderen Erkenntnissen über die Krankheit (z.B. Laboruntersuchungen, andere epidemiologische Auffälligkeiten).
    • Experimentelle Überprüfung: Der Kausalzusammenhang zeigt sich in Experimenten (z.B. tierexperimentell, im Labor, durch Interventionen).
    • Analogie: Es gibt ähnliche Zusammenhänge, für die eine Kausalität bekannt ist.

Hypothesenarten

Man unterscheidet zwischen verschiedenen Hypothesenarten, von denen im Folgenden eine Auswahl vorgestellt wird.

Deterministische und probabilistische Hypothesen

Diese Unterscheidung bezieht sich auf die Aussagekraft bzw. die Eintrittswahrscheinlichkeit geprüfter Hypothesen.

  • Deterministische Hypothese
    • Zusammenhang zwischen Faktoren besteht mit einhundertprozentiger Sicherheit
    • Kommt in der Medizin und Psychologie eher nicht vor, sondern bspw. in der Physik und Mathematik
  • Probabilistische Hypothese
    • Sagt einen wahrscheinlichen Zusammenhang von Faktoren voraus
    • Findet in der Medizin und Psychologie am häufigsten Anwendung
      • Beispiel: Das Auftreten einer Erkrankung beim Vorliegen bestimmter Risikofaktoren

Null- und Alternativhypothese

Man wird in der Realwissenschaft nie die Gültigkeit einer Aussage/Hypothese für alle Menschen zu allen Zeitpunkten beweisen können. Somit kann die Gültigkeit einer Hypothese lediglich indirekt bewiesen werden, indem falsche Hypothesen ausgeschlossen werden (= Falsifikationsprinzip). Dieses Prinzip findet sich in der Formulierung von Null- und Alternativhypothese wieder, die im Rahmen der Hypothesentestung gegeneinander getestet werden.

Findet sich ein Unterschied zwischen den Gruppen, widerlegt dies die Nullhypothese und die Alternativhypothese kann zunächst angenommen werden.

Fehler 1. und 2. Art

In der Medizin kann eine Aussage im Allgemeinen nicht sicher bewiesen werden, es gibt immer eine gewisse Wahrscheinlichkeit, dass man zu einem falschen Ergebnis gelangt. Man unterscheidet hierbei Fehler 1. und 2. Art:

Multiple Tests

Werden mehrere Tests hintereinander ausgeführt, so hat dies Auswirkungen auf die Fehlerwahrscheinlichkeit. Es sollte daher stets genau überlegt werden, welche Tests sinnvoll sind.

Untersuchungsplanung

Interventionsstudien

Die Intervention ist eine Behandlungsmaßnahme, deren Effekt in einer Studie gemessen werden soll. Dazu werden die Ausgangswerte vor der Intervention gemessen (Präzeitpunkt) und mit den Werten nach der Intervention verglichen (Postzeitpunkt). Gleichzeitig soll ausgeschlossen werden, dass die Veränderung auf andere Faktoren zurückzuführen ist. Die randomisierte kontrollierte Studie ist die Studienform mit der höchsten Aussagekraft. Wird im Gegensatz dazu keine Intervention durchgeführt, sondern nur eine natürliche und reale Situation beobachtet, spricht man von einer nicht-experimentellen Studie.

  • Randomisierte kontrollierte Studie: Zur Beurteilung, ob das Studienergebnis wirklich auf die Intervention und nicht auf andere Faktoren zurückzuführen ist, werden folgende Maßnahmen vor dem Beginn der Studie ergriffen:
    • Aufteilung der Teilnehmer in Gruppen
      • Experimentalgruppe (EG): Gruppe, die eine Intervention durchläuft (Beispiel: Bekommt Medikament)
      • Kontrollgruppe (KG): Gruppe, die keine Intervention durchläuft (Beispiel: Bekommt Placebo)
    • Randomisierung:
      • Die Aufteilung in EG und KG erfolgt per Zufall
      • Dadurch wird ausgeschlossen, dass sich die Gruppen in Punkten unterscheiden, die das Ergebnis verzerren könnten
      • Reduziert a priori (d.h. vor Durchführung der Studie) mögliche personenbezogene Einflüsse auf das Ergebnis
    • Intention-to-treat-Prinzip: Alle Patienten, die durch die Randomisierung in Gruppen aufgeteilt wurden, sollen in die Analyse miteinbezogen werden, einschließlich derer, die das Experiment nicht beendet haben.
  • Quasi-Experiment
    • Die Aufteilung in Gruppen erfolgt nicht per Zufall
    • Geringere Aussagekraft als die randomisierte kontrollierte Studie
    • Wird herangezogen, wenn Unterschiede zwischen natürlich vorhandenen Gruppen untersucht werden sollen

Beispiel: Randomisierte kontrollierte Studie zu Rückenschmerzen

  • Fragestellung: Wirkt sich ein Bewegungsprogramm positiv auf Rückenschmerzen aus?
  • Teilnehmer: 60
    • Randomisierung computergestützt über Zufallszahlen → 30 Teilnehmer in Experimentalgruppe (EG) und 30 in Kontrollgruppe (KG)
      • Damit handelt es sich um eine randomisierte Studie
    • EG: Bekommt Intervention (Bewegungsprogramm)
    • KG: Bekommt keine Intervention
  • Alternativhypothese: Das Bewegungsprogramm senkt die Rückenschmerzen
  • Nullhypothese: Das Bewegungsprogramm hat keine Wirkung, evtl. Veränderungen der Rückenschmerzen sind zufällig
  • Datenerhebung: Nach acht Wochen Erfassung der Veränderungen der Rückenschmerzen (bspw. anhand eines Fragebogens unter Verwendung einer Ratingskala)
  • Auswertung: Über statistische Tests

Charakteristika einer Ratingskala

  • Verwendung zur Erfassung subjektiver Einschätzungen von bspw. Schmerzen
  • Aufbau
    • Numerische Ratingskala: Beurteilung anhand von Zahlenwerten
    • Symbolische Ratingskala: Beurteilung anhand von Symbolen
    • Verbale Ratingskala: Beurteilung anhand eines beschreibenden Textes
  • Ratingskalen ermöglichen das Bilden einer Rangfolge (Indexbildung) und haben somit mindestens das Niveau einer Ordinalskala
  • Ratingskalen, die von einem Extrem über einen neutralen Wert zu einem anderen Extrem reichen, werden als Likert-Skala bezeichnet

Fehler in Studien

Systematische Fehler in Studien können das Untersuchungsergebnis verfälschen, indem sie es in eine bestimmte Richtung verschieben. Um diesen Fehlern entgegenzuwirken, wendet man die Einfach- bzw. Doppelverblindung und Randomisierung an.

  • Systematische Fehler
    • Hawthorne-Effekt (Versuchspersonenfehler):
      • Durch die bewusste Teilnahme an einer Studie ändern die Versuchspersonen ihr Verhalten und beeinflussen so das Ergebnis.
      • Gegenmaßnahme → Einfachverblindung: Um den Effekt einzudämmen, wissen die Versuchspersonen nicht, ob sie der EG oder KG angehören
    • Rosenthal-Effekt (Versuchsleiterfehler):
      • Durch die Erwartungen des Versuchsleiters verhält sich dieser unterschiedlich gegenüber den Teilnehmern der Studie und beeinflusst so das Ergebnis
      • Gegenmaßnahme → Doppelverblindung: Um auch diesen Effekt zu vermindern, kennen weder Patient noch Arzt die Gruppenzugehörigkeit des Patienten
  • Zufällige Fehler:
    • Fehler, die sich auf einzelne Studienteilnehmer beschränken, aber in der Gesamtstichprobe aufgehoben werden.

Die randomisierte kontrollierte Studie ist der Studientyp mit der höchsten methodischen Qualität!

Epidemiologische Studienarten

Epidemiologische Daten können auf verschiedene Arten gewonnen werden. Prospektive Studien sind aussagekräftiger, aber auch deutlich aufwendiger.

  • Primärdaten: Daten, die für eine bestimmte Fragestellung unmittelbar erhoben werden
  • Sekundärdaten: Daten, die nicht direkt erhoben, sondern aus Primärdaten gewonnen werden, indem diese zu einem späteren Zeitpunkt mit einer anderen Fragestellung erneut ausgewertet werden
    • Beispiel: Daten, die ursprünglich zur Erfassung der Versorgungssituation chronisch Kranker erhoben wurden, werden erneut analysiert, um Risikofaktoren für bestimmte Erkrankungen zu ermitteln
Studienart Design Vorteile Nachteile Beispiel
Querschnittsstudie
  • Zu einem einzigen Zeitpunkt wird eine oder mehrere Gruppen auf ein Merkmal hin untersucht
  • Geringer Aufwand
  • Erste Orientierung
  • Konfundierung
  • Rein deskriptiv
  • Prävalenzmessung einer Krankheit
Prospektive Längsschnittstudie
  • Prospektiv=vorausschauend
  • Eine oder mehrere Gruppen (Kohorten) werden jetzt und zu einem späteren Zeitpunkt untersucht
  • Entwicklungsverläufe können erfasst werden
  • Hoher zeitlicher und finanzieller Aufwand
  • Zwei Gruppen (Risikofaktor Exponierte/Nicht-Exponierte) werden jetzt und zu einem späteren Zeitpunkt hinsichtlich des Erkrankungsrisiko verglichen
Fall-Kontroll-Studie
  • Retrospektiv
  • Eine Fall- und eine Kontrollgruppe werden auf zurückliegende Faktoren untersucht
  • Erste Orientierung
  • Hohe Fehleranfälligkeit
  • Geringe Aussagekraft
  • Selection bias: Wahl der Kontrollgruppe kann das Ergebnis verändern
  • Recall bias: Verzerrte Erinnerungen und die Neubewertung von Vergangenem können das Ergebnis verfälschen
  • Eine Gruppe von Erkrankten wird mit einer Gruppe von Gesunden hinsichtlich der vergangenen Aussetzung eines Risikofaktors verglichen

Stichproben

  • Stichprobe: Eine zu untersuchende Teilmenge, durch die man auf Eigenschaften der Grundgesamtheit schließen möchte
  • Repräsentativität: Gibt an, ob eine Teilmenge hinsichtlich relevanter Merkmale einer übergeordneten Menge gleicht
  • Vor der Durchführung wissenschaftlicher Studien wird mittels einer sog. Fallzahlberechnung geschätzt, wie groß die Stichprobe mind. sein sollte.
    • Zur Berechnung der Fallzahl werden i.d.R. das α-Fehler-Risiko auf 5% und die Power auf 80% festgesetzt. Darüber hinaus wird eine Schätzung der Größe des erwarteten Unterschieds zwischen Experimentalgruppe und Kontrollgruppe benötigt (Effektstärke).
Stichprobenart Beschreibung
Einfache Zufallsstichprobe Jedes Mitglied einer Population kann mit der gleichen Wahrscheinlichkeit in die Stichprobe mit aufgenommen werden. Dadurch erhofft man sich eine repräsentative Darstellung der Gesamtpopulation.
Geschichtete Zufallsstichprobe Die Population wird hinsichtlich eines Merkmals aufgeteilt, das mit dem zu messenden Merkmal in Zusammenhang stehen kann.
Klumpenstichprobe Aus einer Gesamtpopulation werden Gruppen per Zufall ausgewählt, innerhalb derer dann alle Personen untersucht werden.
Konsekutive Stichprobe Alle Teilnehmer, die während eines Zeitraum behandelt werden und dabei ein bestimmtes Kriterium erfüllen, werden in die Stichprobe mit aufgenommen.
Quotenstichprobe Die Stichprobe wird prozentual (nach Quoten) gemäß der Gesamtpopulation aufgeteilt. Aus den jeweiligen Gruppen kann der Untersucher aber frei auswählen.
Ad-hoc-Stichprobe Der Untersucher wählt die Teilnehmer aus, die gerade verfügbar sind. Diese Stichprobe ist nicht sehr zufällig und daher wahrscheinlich nur wenig repräsentativ.
Mehrstufige Stichprobe Die zufällige Auswahl der Teilnehmer erfolgt in zwei oder mehr Stufen: Aus einer Gruppe wird eine Zufallsauswahl gezogen, aus der im Anschluss erneut eine Zufallsauswahl ausgewählt wird. Diese Methode kann – je nach Gruppengröße – weiter fortgeführt werden.

Ergebnisbewertung

Am Ende bleibt zu entscheiden, wie verlässlich eine Studie mitsamt ihrer Ergebnisse ist und wie man gegebenenfalls zu noch verlässlicheren Analysen gelangen kann. Folgende Stichpunkte seien in diesem Zusammenhang genannt:

  • Replizierbarkeit
    • Bezieht sich auf die Wiederholbarkeit von Ergebnissen, d.h., dass verschiedene Studien zu gleichen Ergebnissen kommen müssen, damit ein Sachverhalt als verlässlich eingestuft werden kann.
    • Eine einzige Studie zu einem Thema reicht nicht aus, um die Ergebnisse als verlässlich einzustufen.
    • Fehler können durch besondere Bedingungen oder zufällig entstanden sein.
  • Metaanalyse: Studienart, die Primärdaten aus anderen Studien zu einem bestimmten Thema zusammenfasst und quantitativ analysiert
    • Systematische Vorgehensweise
    • Effektstärken der einzelnen Studien werden zusammengefasst
    • Durch eine hohe Gesamteffektstärke kann die Wirksamkeit einer Intervention erwiesen werden.
  • Generalisierbarkeit (Externe Validität)
    • Beschreibt die Verallgemeinerungsfähigkeit der Ergebnisse auf andere Situationen oder Populationen.
  • Evidenzbasierte Medizin
    • Medizinische Behandlungen sollen nach Möglichkeit nur noch angewendet werden, wenn ihre Wirksamkeit durch Studien belegt ist
    • Eine Metaanalyse über viele randomisierte kontrollierte Einzelstudien hat die höchste Evidenz.

Wiederholungsfragen zum Kapitel Grundlagen wissenschaftlicher Studien

Hypothesenbildung

Was bedeuten die Begriffe Induktion und Deduktion?

Was versteht man unter dem Falsifikationsprinzip?

Wodurch unterscheiden sich eine deterministische und eine probabilistische Hypothese voneinander?

Was versteht man unter einem Fehler 1. Art und einem Fehler 2. Art? Erkläre dabei auch den Unterschied zwischen Null- und Alternativhypothese!

Untersuchungsplanung

Was wird in einer Interventionsstudie untersucht und welche Studienform besitzt dabei die höchste Aussagekraft?

Wie läuft eine randomisierte kontrollierte Studie ab?

Wie nennt man die Vorgehensweise, bei der alle Versuchspersonen (auch Studienabbrecher) einer randomisierten kontrollierten Studie in die Auswertung miteinbezogen werden und warum ist sie so wichtig?

Wie kann man subjektive Einschätzungen (z.B. Schmerzen) erfassen?

Was versteht man unter dem Rosenthal-Effekt und wie kann man diesen verhindern?

Wie läuft eine Querschnittsstudie ab?

Was ist der Unterschied zwischen einer prospektiven Längsschnittstudie und einer Fall–Kontroll–Studie?

Wie wird eine Klumpenstichprobe gebildet?

Wie wird eine Quotenstichprobe gebildet?

Wie wird eine Zufallsstichprobe gebildet?

Ergebnisbewertung

Was versteht man unter einer Metaanalyse?