Eine Reise durch die Physiologie - Wie der Körper des Menschen funktioniert
 

    
Grundlagen und Methoden der Physiologie; molekulare und zelluläre Aspekte

 

Streuung, Normalwerte, Biometrie, Hypothesentestung

© H. Hinghofer-Szalkay


Diagnose: διά = durch, γνώσις = Erkenntnis, Urteil
Falsifikation: falisificare = als falsch erkennen
Gauß'sche Glockenkurve: Carl Friedrich Gauß
Heuristik: εὑρίσκειν = entdecken, finden
Hypothese: ὑπόθεσις =
GrundlageVoraussetzung, Unterstellung
Placebo: placebit (lat) = es wird gefallen
Randomisieren: random = zufällig
Signifikanz: signum = (Kenn)Zeichen, Signal
stochastisch: στοχαστικὴ τέχνη = Ratekunst
Theorie: θεωρεῖν  = betrachten, θεωρία = Sehen, Anschauung, wissenschaftliche Betrachtung, Überlegung, Einsicht
Varianz: variare = (ver)ändern, verschieden sein


Biometrie (Biostatistik) verwendet mathematische Verfahren zur Organisation, Darstellung und Beurteilung von Daten, die bei der wissenschaftlichen Untersuchung biologischer Systeme gewonnen werden. Sie stellt Ergebnisse von Beobachtungen oder experimentellen Studien dar (beschreibende oder deskriptive Statistik), bietet Schätz- und Testverfahren, und ermöglicht die Prüfung von Hypothesen (schließende oder induktive Statistik).

Bei letzterer können zwei Arten von Fehleinschätzungen unterlaufen:
 
   --
Fehler 1. Art, α-Fehler: Die Nullhypothese (Gruppen unterscheiden sich nicht) wird fälschlicherweise zurückgewiesen, obwohl sie zutrifft (falsch positive Einschätzung: Ein Unterschied wird vermutet, obwohl es nicht da ist. Beispiele: Krankheitsdiagnose beim Gesunden, zu strenger Prüfer - "Fehlalarm"). Hohe Spezifität bedeutet einen geringen Fehler 1. Art
 
   -- Fehler 2. Art, β-Fehler: Die Nullhypothese wird fälschlicherweise beibehalten, obwohl sie nicht zutrifft (falsch negative Einschätzung - es wird etwas verpasst, obwohl es da ist. Beispiele: Nichterkennen einer Krankheit, allzu nachsichtiger Prüfer - "Laissez-faire"). Hohe Sensitivität bedeutet einen geringen Fehler 2. Art

Das Ergebnis von Beobachtungen / Messungen unterliegt verschiedenen Fehlerquellen. Beispielsweise stellt sich die Frage nach der Genauigkeit:
 
   -- Mit Präzision meint man, wie stark (bei wiederholter Messung) die Resultate streuen (quantifizierbar mittels eines Varianzmaßes, z.B. Standardabweichung);
 
   -- Absolutgenauigkeit (accuracy) gibt an, wie "richtig" das Messverfahren arbeitet (Nähe des statistischen Mittelwertes der Resultate zum tatsächlichen Wert der gemessenen Größe).

Testdesign bedeutet planvolles Vermeiden von Fehlern. So ermöglicht Randomisierung (zufällige Zuteilung zu Testgruppen), unbeabsichtigte systematische Fehler (bias) zu vermeiden, welche z.B. einen Effekt (etwa eine Medikamentenwirkung) vortäuschen, der in Wirklichkeit nicht besteht.



Biometrie Beschreibende Statistik Absolutgenauigkeit / Präzision Schließende Statistik Fehler (α, ß), Spezifität / Sensitivität Hypothesentestung

Core messages
   
Daten müssen organisiert und interpretiert werden
 
Was ist gesund ("normal", physiologisch), was ist krank (abnorm, pathologisch)? Oft ist es nicht einfach, aufgrund einer Messung (z.B. Blutdruck) oder eines Laborwertes (z.B. Blutzuckerspiegel) eine klare Antwort zu finden, insbesondere wenn das Ergebnis in einem "Graubereich" liegt.

Physiologische / medizinische Messwerte sind mit einer gewissen Unsicherheit behaftet. Diese hat mehrere Ursachen. Die Ausprägung (der Messwert) eines Merkmals bei einem Merkmalsträger (Proband, Patient) hängt von der Art des Merkmals ab:


     qualitativ (ohne zahlenmäßige Ordnung, z.B. jung / alt, männlich / weiblich) oder

     quantitativ; ein quantitatives Merkmal ist
 
  diskret (Wertebereich: natürliche Zahlen, z.B. Leukozytenzahl) oder

  stetig (Wertebereich: reelle Zahlen, d.h. auf einer kontinuierlichen Skala liegend, z.B. Betrag des Blutdrucks).

Je nach Art des Merkmals differiert die Darstellung einer Verteilung, und werden unterschiedliche statistische Verfahren angewendet.
 
Biometrie (Biostatistik)
 
Biometrie (gr. 'Lebensmessung') bzw. Biostatistik kann als die Anwendung statistischer Methoden auf die Lösung biologischer Probleme verstanden werden. Biomathematik setzt die Werkzeuge der Statistik und Mathematik für die Lösung medizinischer Fragestellungen oder die Beschreibung medizinischer Phänomene ein.
 

>Abbildung: Korrelation bedeutet nicht notwendigerweise Kausalität (Verursachung)
Nach: Richard Mould, Introductory Medical Statistics (CRC Press)

Die Bevölkerungszahl der Einwohner von Oldenburg zu Ende der Jahre 1930 bis 1936 ist als Funktion der in diesen Zeiträumen beobachteten Anzahl der Störche dargestellt
 (die Korrelation beweist nicht, dass Störche Kinder bringen )



Man unterscheidet

     beschreibende (deskriptive) Statistik - sie vermittelt Verfahren zur übersichtlichen Darstellung von Untersuchungsergebnissen, wie Mittelwert und Streumaße, z.B. die Varianz: Diese quantifiziert, wie breit die Streuung der Einzelwerte einer entsprechenden Größe in einer Gruppe ist (z.B. die Verteilung des Körpergewichts der Schüler einer Klasse);

     erkundende (explorative) Statistik - sie versucht, Daten, über deren Struktur wenig bekannt ist, sinnvoll darzustellen;

     schließende (induktive) Statistik - sie bietet Schätz- und Testverfahren, ermöglicht die Prüfung von Hypothesen durch statistische Tests. Annahmen können bei geringer Wahrscheinlichkeit für ihre Gültigkeit als widerlegt gelten (Falsifizierung: Statt einer vorgeschlagenen Hypothese nimmt man im Fall ihrer Widerlegung eine als besser geeignet erscheinende Antithese an).
 
Beschreibende (deskriptive) Statistik
 
Mittels beschreibender Statistik (descriptive statistics) werden Häufigkeitsverteilungen ermittelt, Kenngrößen für die Streuung (Spannweite oder Variationsbreite, range; von kleinstem bis größtem Wert) von Merkmalsausprägungen angegeben - z.B. als Standardabweichung (standard deviation SD, definiert als die Quadratwurzel aus der Varianz) um den Mittelwert:
 

 
Dabei bedeutet X den Wert einer Einzelmessung, X-quer den arithmetischen Mittelwert aus allen Beobachtungen, n die Zahl der Beobachtungen; der unter der Wurzel angegebene Term ist die Varianz. Die Formel auswendig zu kennen, ist in der Praxis überflüssig (auch kleine Taschenrechner können das); wichtig ist die Bedeutung dieses Streumaßes:

Die Standardabweichung sagt aus, wie stark
in einem Kollektiv mit normalverteilten Daten die Werte einzelner Beobachtungen um den Mittelwert streuen. Der Bereich auf der Größenachse, der zwischen dem Betrag einer Standardabweichung unter dem Mittelwert einerseits, und einer Standardabweichung über dem Mittelwert andererseuts (AMW ± 1 SD) streut, umfasst 68,2%; der Bereich AMW ± 2 SD 95,4%; und der Bereich AMW ± 3 SD 99,7% aller Beobachtungen ( vgl. unten).

Ist die Verteilung nicht normalverteilt, sollte auch keine Standardabweichung angegeben werden (es gibt andere Möglichkeiten zur Charakterisierung der Streuweite, s. weiter unten).

Der (arithmetrische) Mittelwert AMW (mean, arithmetric mean, average) ist die Summe der Einzelwerte (E1, E2, .. EN) eines Kollektivs dividiert durch die Zahl der Beobachtungen (N):

AMW = (E1 + E2 ... + EN) / N
 
Der Mittelwert liegt in der Mitte (beim häufigsten Wert) einer Normalverteilung (Gauss-sche Glockenkurve). Teilt der errechnete Mittelwert die Verteilung nicht in zwei gleich große Hälften, liegt keine Normalverteilung vor.

Ist eine Verteilung nicht symmetrisch, reduziert sich die Sinnhaftigkeit der Angabe des Mittelwertes. "Ausreißer" mit von der Gruppe stark abweichenden Messwerten können den Mittelwert deutlich verrücken. Beispielsweise steigert eine 90-jährige Person in einer kleinen Gruppe von Jugendlichen das durchschnittliche Alter deutlich, der Mittelwert ist nicht mehr repräsentativ für die Gruppe.

In solchen Fällen einer asymmetrischen Verteilung ist der Medianwert besser zur Charakterisierung der betreffenden Eigenschaftsverteilung im Kollektiv geeignet. Es ist der Wert, der die "oberen" 50% von den "unteren" 50% der Verteilung trennt:
  

<Abbildung: Medianwert

In diesem Beispiel liegen 4 Meßpunkte (von insgesamt 9) über und 4 unter dem Median (in diesem Fall ~1,7, das ist der Wert des 5. Meßpunktes der Reihe). Ist die Zahl der Beobachtungen geradzahlig, ist der Medianwert definiert als der Mittelwert zwischen den beiden mittleren Messpunkten

Bei einer perfekten Normalverteilung, die durch eine symmetrische Wahrscheinlichkeitsdichteverteilung gekennzeichnet ist ("Glockenkurve"), fallen Mittelwert und Medianwert zusammen.

Der Medianwert bildet auch den Mittelpunkt sogenannter Box-Whisker-Plots ("Kastengraphik"). Diese kennzeichnen die Verteilung von Messpunkten (Streuung und Lage) in Form eins zentralen Kästchens (box) und der Bereichsangabe zwischen zwei "Antennen" (whiskers), die ein "Minimum" und ein "Maximum" angeben:
 

>Abbildung: Box and whisker plot

Um den Medianwert liegen jeweils die Hälfte aller Beobachtungen. Q1 kennzeichnet die 25%-Perzentile, Beobachtungen mit niedrigeren Beträgen des Messwertes machen ein Viertel aller Beobachtungen aus. Q3 kennzeichnet die 75%-Perzentile, Beobachtungen mit höheren Beträgen des Messwertes machen ebenfalls ein Viertel aller Beobachtungen aus.
 
Der Interquartilsabstand IQR (inter-quartile range) liegt zwischen Q1 und Q3. Die Lage des "Minimums" und des "Maximums" wird verschieden definiert, bei symmetrischen Verteilungen z.B. durch einen Abstand von 1,5 IQR unterhalb bzw. oberhalb des Betrages von Q1 bzw. Q3.
 
Messpunkte, die außerhalb des Bereichs zwischen "Minimum" und "Maximum" liegen, werden als "Ausreißer" individuell dargestellt

Box and whisker-Plots stellen sowohl normalverteilte als auch nicht-normalverteilte Streuungen von Messergebnissen übersichtlich dar. Die Strecke zwischen der 25. und 75. Perzentile enthält die Hälfte aller Beobachtungen. Wie weit der untere und der obere Whisker reicht, hängt einerseits von der Art der Verteilung, andererseits von der Definition ab, mit der die Begrenzung festgelegt wird (z.B. 2,5-%-Quantil und 97,5-%-Quantil, der Whisker-Bereich umspannt dann 95% aller Beobachtungen). Als Ausreißer bezeichnet man individuell darzustellende Messpunlte, die außerhalb des Antennenbereichs zu liegen kommen. Man unterscheidet manchmal auch zwischen "milden" und "extremen" Ausreißern, die dann unterschiedlich darzustellen sind.
 
Vieles in der Medizin wird in Prozent (Hundertstel) angegeben. Dabei ist es wesentlich, immer die Frage zu stellen, % wovon (100% = 1), d.h. die Gesamtheit von etwas - dieses Etwas muss definiert werden.
 
    Eine Prozentzahl ohne Kenntnis / Angabe der Gesamtheit (=1) ist sinnlos

   
Beispiel: Wie groß bist Du? Antwort: 110 Prozent
 

Prozentwerte können irreführend sein: Wird z.B. gesagt, eine Partei habe 20% Stimmen dazugewonnen, kann das viel sein - etwa wenn 1 die Gesamtheit aller Wähler bedeutet - oder wenig, wenn mit "1" eine kleine Teilmenge gemeint ist, etwa die Anhänger
einer Minipartei...

 
Explorative Statistik stellt u.a. Zusammenhänge von Merkmalen und Einflussgrößen dar - z.B., wie verhält sich die Tageszeit zu Ihrer Laune? Darstellbar ist dies mittels einer Regressionsanalyse (=Analyseverfahren, das die Beziehung mehrerer Variablen modelliert). Dabei werden Daten im Konnex dargestellt, ohne noch eine abschließende Interpretation zu geben (das ist Aufgabe der schließenden, nicht der beschreibenden Statistik).
 
Genauigkeit
  
     Zum Begriff der "Genauigkeit" ist zu unterscheiden zwischen

    Absolutgenauigkeit (accuracy), d.h. wie richtig das durchschnittliche Resultat des Messverfahrens ist. Statistisch ist dies beschreibbar als die Differenz zwischen dem "Referenzwert" (wahren Wert) und dem Mittelwert der Messergebnisse;

    Präzision (precision), d.h. wie verlässlich das Resultat bei wiederholter Messung wiederkehrt (statistisch beschreibbar, z.B. als Normalverteilung wie in der Abbildung). Die Präzision ist über eine Verteilungsbeschreibung quantifizierbar (z.B. wie groß ist die Standardabweichung einer Normalverteilung der Messergebnisse?
 

>Abbildung: Absolutgenauigkeit und Präzision


Absolutgenauigkeit bedeutet, wie nahe der Mittelwert der Verteilung der Werte aus einer Messreihe am wahren Wert der Zustandsgröße liegt - je geringer die Differenz, desto höher die Genauigkeit.
 
Präzision bedeutet, wie nahe die Ergebnisse einer Messreihe am Mittelwert der Verteilung liegen - je geringer die Streuung, desto höher die Präzision.

Links oben: Geringe Genauigkeit, geringe Präzision
 
Rechts oben: Geringe Genauigkeit, hohe Präzision
 
Links unten: Hohe Genauigkeit, geringe Präzision
 
Rechts unten: Hohe Genauigkeit und Präzision


  So kann eine Waage immer wieder einen falschen Absolutwert angeben; dann ist die Präzision möglicherweise hoch ("immer genau daneben"), die Absolutgenauigkeit aber gering (Abweichung vom wahren Wert).

  Sie kann aber auch umgekehrt im Schnitt den wahren Wert anzeigen, nur die Einzelmessungen streuen stark - breite Verteilung; hohe Absolutgenauigkeit, geringe Präzision; wiederholte Messungen ergeben im Schnitt das richtige Resultat.
 

<Abbildung: Häufigkeits-Verteilungskurve (Gauß'sche Glockenkurve)

Normalverteilung, Mittelwert (Pfeil), Abstand vom Mittelwert in Beträgen der Standardabweichung (SD, standard deviation).
 
Der einfache Standardabweichungsbereich um den Mittelwert (Bereich zwischen -1 SD und +1 SD) beinhaltet 68,2%,
 
der doppelte Standardabweichungsbereich (Bereich -2 SD bis +2 SD) 95,4% der Beobachtungen in der Verteilung

Bei einer symmetrischen, d.h. Normalverteilung (Gauß-Verteilung, normal distribution) - eine eingipflige, stetige Verteilung, deren Form durch den Mittelwert und die Varianz der Messergebnisse vollständig definiert ist - überstreicht der Bereich, der von 2 Standardabweichungen unter dem Mittelwert bis zu 2 Standardabweichungen über dem Mittelwert liegt, 95,4% aller in dieser Verteilung beobachteten Werte (blauer Bereich in der <Abbildung).

Jeweils 2,5% der Beobachtungen fällt aus dem Referenzbereich heraus, sie liegen vom Mittelwert weiter als zwei Standardabweichungen entfernt (violette Bereiche in der <Abbildung).

Diese Spanne wird als ein wichtiges Konfidenzintervall (confidence interval) herangezogen und gilt z.B. in der klinischen Labordiagnostik oft als Referenzbereich.

      Das Konfidenzintervall gibt an, in welchem Bereich der Mittelwert der gesamten Population liegt, auf die man sich bezieht.

Ein Beispiel: 100 hypertensiven Patienten wird ein Medikament verabreicht, der Mittelwert des systolischen Blutdrucks sinkt um 20 mmHg, mit einem 95%-Konfidenzintervall zwischeen 15 und 25%. Man kann zu 95% sicher sein, dass der Effekt in dieser Spanne liegt. Wäre das Konfidenzintervall größer - z.B. bei nur 50 Patienten von -5% bis +45% -, ist die Wahrscheinlichkeit, dass in Wirklichkeit keine Wirkung erfolgt ist, zu groß (>5%), um eine tatsächliche Wirkung vermuten zu können.
 
Je größer die Stichprobe (sample) - also der Anteil an der gesamten Population, an der ein Effekt bestimmt werden soll -, desto kleiner ist meist die Spanne des Konfidenzintervalls.

Was ist der Unterschied zwischen der Standardabweichung und dem Konfidenzintervall? Die Standardabweichung gibt Aufschluß über die Streuung der Einzelwerte in einer Stichprobe; das Konfidenzintervall gibt an, in welchen den Bereich der "wahre" Mittelwert (wenn man die gesamte Population untersuchen könnte) wahrscheinlich zu liegen kommt.
 
Klinische Messwerte, die innerhalb des doppelten Standardabweichungsbereichs um den "idealen" Wert liegen, werden im allgemeinen als "unauffällig" gewertet ("negativer Befund"). Fällt ein Messwert aus diesem Bereich heraus, gilt er als "auffällig" ("positiver Befund").

   Übersichtsgraphik: Klinisch-chemische Normbereiche

Das bedeutet nicht, dass der Lieferant eines "negativen" Befundes mit Sicherheit "gesund" und derjenige eines "positiven" Befundes automatisch "krank" ist (Fehler sind von der Probengewinnung über das Transport- und Messprozedere bis zur Dateninterpretation möglich, und es gibt biologische Besonderheiten).

Außerdem sind die Referezbereiche oft abhängig von Alter und Geschlecht. Tatsächlich werden meist mehrere Kriterien für die Beurteilung des Gesundheits- bzw. Erkrankungszustands der betroffenen Person herangezogen.
 
    Physiologische ("unauffällige") Messwertbereiche bedeuten nicht immerdie doppelte Standardabweichung um den Mittelwert. Richtwertgrenzen orientieren sich oft an klinischer Erfahrung, sie können im Rahmen von Consensus-Konferenzen festgelegt werden. Weiters muss berücksichtigt werden, dass Messergebnisse methoden- und laborabhängig sind (und damit die Referenzbereiche). Und: Literaturangaben sind uneinheitlich, oft auch unklar.

Für klinische Laborwerte wurde in dieser Website als primäre Datenquelle das Lexikon der Medizinischen Laboratoriumsdiagnostik (Gressner / Arndt, 2. Aufl. 2013, Springer-Verlag) herangezogen.
 
Schließende (induktive) Statistik
 
Die schließende Statistik (statistical inference) rechnet Wahrscheinlichkeiten aus, mit denen vermutete Sachverhalte (z.B. über einen Kausalzusammenhang) zutreffen (oder nicht zutreffen). 
Biometrische Testverfahren sollen Hypothesen (vermutete Sachverhalte) anhand von Versuchsergebnissen überprüfen und gegenüber möglicherweise irreleitenden Zufallseffekten absichern. Man erhebt Daten (durch Messung / Beobachtung gewonnene Werte oder Befunde) an Zufallsstichproben (random samples), das sind Teile des gesamten Kollektivs (an Datenträgern), die mit Hilfe spezieller Auswahlverfahren zur Datenerhebung ausgesucht werden. Die statistische Auswertung von Zufallsstichproben ist ein heuristisches Verfahren (Heuristik ist die Methode, mit begrenztem Wissen bzw. unvollständigen Informationen zu wahrscheinlichen Aussagen zu gelangen).
 
  In komplexen Systemen (wie meistens im medizinischen Bereich) interagieren zahlreiche Größen, klare Ursachen-Wirkungs-Beziehungen sind oft schwer erkennbar, die Reduktion auf nur eine Einflussvariable unmöglich.

Theorien bauen auf Hypothesen auf; auch sie sind spekulativ, aber allgemeiner gehalten als (die ihnen zugrundeliegenden) Hypothesen, die (jede für sich) wissenschaftlich getestet werden können.

  Resultat eines statistischen Schlusses ist nicht Gewissheit (Sicherheit), sondern eine bestimmte Wahrscheinlichkeit (probability), mit der z.B. ein Unterschied zwischen den geprüften Stichproben (z.B. je 20 Patienten) in Bezug auf die geprüfte Einflussgröße tatsächlich besteht. Eine getroffene Aussage (z.B. ob Kopfschmerz nach Gabe von Aspirin rascher abklingt als bei Verwendung eines Placebo) wird als mehr oder weniger wahrscheinlich gewertet.
  


<Abbildung: Zustands-Zeitverlauf - natürlich, mit Placebo, mit Verum (hypothetisch, vereinfacht)

Beispiel Kopfschmerz: Dieser klingt nach einiger Zeit oft von selbst ab (natürlicher Verlauf). Der Zustand kann sich während des Beobachtungszeitraums auch verschlechtern, die Kurve zeigt dann nach unten.
 
Verlauf mit Placebo: Durch Anbieten eines Placebo - woran sich bestimmte Hoffnungen / Erwartungen knüpfen und endogene Mechanismen aktiviert werden, z.B. Schmerzhemmung in Frontalhirn, limbischem System u.a., vgl. dort - tritt Erholung rascher auf.
 
Verlauf mit Verum: Direkte (molekularbiologische) Effekte eines geeigneten Pharmakons bewirken - zusätzlich zum "Placebo-Effekt" - weitere Beschleunigung der Schmerzdämpfung.
 
Das Ausmaß dieser drei Effekte zum Schluss der Beobachtungsphase: Physiologische Normalisierung blau, Placebo-Wirkung (psycho-biologischer Effekt) grün, Medikamentenwirkung (drug effect) rot. Manchmal können Pharmaka den Verlauf auch negativ beeinflussen (strichlierte Kurve unter der ausgezogenen), dann würden sie wohl als Gift gewertet werden


Immer bleibt in solchen Fällen eine Restwahrscheinlichkeit, dass eine getroffene Schlussfolgerung (z.B. ein getestetes Medikament reduziert Schmerzen in Dauer oder Intensität) unzutreffend ist. (Dabei ist es durchaus möglich, dass nicht das Medikament an sich, sondern seine Einnahme einen schmerzlindernden Effekt hat - Placebo-Wirkung).

  Was ist der p-Wert? "p" kommt von probability, es handelt sich also um ein Wahrscheinlchkeitsmaß - ein sehr wichtiges Konzept (Wahrscheinlichkeitstheorie = Stochastik ). Der p-Wert gibt an, mit welcher Wahrscheinlichkeit ein beobachteter Unterschied zwischen zwei verglichenen Kollektiven nur zufällig aufgetreten ist (Sicherheit: p=1,0; Unmöglichkeit: p=0,0).

Liegt der p-Wert z.B. bei 0,05, heißt das, dass der Effekt in einem von 20 Untersuchungen (5%) durch Zufall auftreten würde.
Wenn die Wahrscheinlichkeit der Nullhypothese unter 5% (p<0,05) liegt, wird meist ein Unterschied (Effekt des Medikaments) angenommen - das Ergebnis wird als signifikant betrachtet (Beispiel: man vermutet, Aspirin ist wirkungsvoller als Placebo).

Die Wahl dieses 'Schwellenwerts' ist eine willkürliche Konvention; je niedriger der p-Wert, desto überzeugender (wahrscheinlicher richtig) ist jedenfalls das Ergebnis. Die Schwelle zu "hoher Signifikanz" wird bei p=0,01 (1%), diejenige zu "sehr hoher Signifikanz" bei 0,001 (0,1%) angenommen. Auch bei hoher Signifikanz ist es immer noch möglich, dass ein Effekt nur zufällig aufgetreten ist, aber die Wahrscheinlichkeit ist dann sehr gering, dass das wirklich der Fall ist.


      Eine (allenfalls zu falsifizierende) Nullhypothese (null hypothesis) ist die Vermutung, dass zwischen zwei zu vergleichenden Stichproben (=Teile der Gesamtheit; dies könnten z.B. alle Kopfschmerzpatienten auf der Welt sein) kein Unterschied (z.B. bezüglich der Kopfschmerzdauer) besteht. Die Wahrscheinlichkeit, dass diese Vermutung zutrifft, ist umso kleiner, je wahrscheinlicher ein Unterschied - in Bezug auf die getestete Variable - zwischen den beiden Stichproben (z.B. Aspirin vs. Placebo ) ist.

Will mal also die Wirkung einer Maßnahme als wahrscheinlich darstellen, geht es darum, die Nullhypothese mit ausreichender Wahrscheinlichkeit zurückweisen zu können (to reject the null hypothesis) - Sicherheit (p=0) gibt es dabei nicht.

  Relevanz: Ob der Effekt auch relevant ist, muss unabhängig davon entschieden werden; da kommt es auf den Zusammenhang an. Es ist möglich, dass ein signifikantes Ergebnis dennoch irrelevant ist, z.B. weil der Effekt zu gering ausfällt - z.B. eine Blutdrucksenkung um 1% - oder weil die Frage der Untersuchung falsch gestellt wurde.
 

Wie überprüft man (begründete) Vermutungen?
  Wahrheitsgehalt von Hypothesen, Fehler 1. und 2. Art, Spezifität und Sensitivität
 
Statistische Tests geben an, wie wahrscheinlich ein vermuteter Sachverhalt zutrifft bzw. eine Nullhypothese zurückgewiesen werden kann. Solche Überlegungen treffen auch auf die Beschreibung der Güte diagnostischer Tests zu. Es können zwei Arten von Fehlern unterlaufen:
 

>Abbildung: Überschneidung der Verteilungskurven der Ausprägung eines Merkmals in zwei Populationen

Zwei Gruppen, die sich hinsichtlich eines bestimmten Messwertes (z.B. Blutdruck) möglicherweise unterscheiden. Das Merkmal ist innerhalb der Testgruppen normalverteilt.
 
Ordinate: Häufigkeit; Abszisse: Betrag des Messwertes (z.B. kPa).
 
Die Power (Stärke) eines Tests sagt aus, wie wahrscheinlich ein bestehender Unterschied zwischen zwei Gruppen (die bezüglich des Testwertes verschieden sind) tatsächlich erkannt wird. Sie beträgt 1 minus dem Betrag des Beta-Fehlers (s. unten).
 
Je größer die Power, desto geringer die Wahrscheinlichkeit eines ß-Fehlers (dass  z.B. ein wirksames Medikament irrtümlich als unwirksam eingestuft wird)


  Fehler 1. Art

α
-Fehler, type I error: Die Merkmalsverteilung der Stichproben kann dazu veranlassen, die
Nullhypothese zu verwerfen, obwohl sie in Wirklichkeit richtig ist (z.B. wird vermutet, dass ein Medikament wirksam ist, obwohl die beiden Testgruppen sich in Wahrheit nicht unterscheiden). Die Höhe dieser Irrtumswahrscheinlichkeit nennt man das α-Risiko (Signifikanzniveau α).

Man sagt auch, die Entscheidung ist bei Vorliegen eines α-Fehlers falsch positiv. Auf eine medizinische Diagnose bezogen, heißt das: man geht von einem positiven Befund aus (Vermutung: Person krank), obwohl dies unzutreffend ist.

Eine diagnostische Methode mit hohem α-Risiko legt häufig ein verdächtiges Ergebnis nahe, obwohl dies nicht zutrifft ("Fehlalarm"). Oder: Ein Prüfer mit hohem α-Risiko ist besonders streng; dann werden auch zahlreiche gut vorbereitete Kandidaten negativ beurteilt.

Unter Spezifität versteht man die Wahrscheinlichkeit, mit welcher der Test in der Gesamtheit der objektiv nicht kranken Untersuchten auch ein negatives Testergebnis anzeigt.
 
  Tests mit hoher Spezifität haben einen geringen Fehler 1. Art.
 
  Fehler 2. Art

β
-Fehler, type II error: Die
Merkmalsverteilung der Stichproben kann dazu veranlassen, die Nullhypothese beizubehalten, obwohl sie in Wirklichkeit falsch ist (z.B. wird vermutet, dass ein Medikament unwirksam ist, obwohl die beiden Testgruppen sich in Wahrheit unterscheiden). Die Höhe dieser Irrtumswahrscheinlichkeit nennt man das Beta-Risiko.

Man sagt auch, die Entscheidung ist bei Unterlaufen eines β-Fehlers falsch negativ. Auf eine medizinische Diagnose bezogen, heißt das: die diagnostische Methode findet nichts (klinischer Jargon: 'ohne Befund' - o.B.), obwohl die Person objektiv krank ist.

Eine Methode mit hohem β-Risiko ist diagnostisch unempfindlich. Oder: Ein Prüfer mit hohem β-Risiko, d.h. geringer test power (=1-ß), ist besonders mild ("Laissez-faire"-Typ); bei ihm kommen auch ungenügend vorbereitete Kandidaten durch (was angenehm für Medizinstudent/inn/en, aber schlecht für deren zukünftige Patienten ist).

Unter Sensitivität versteht man die Wahrscheinlichkeit, mit welcher der Test in der Gesamtheit der objektiv kranken Untersuchten auch ein positives Testergebnis anzeigt.
 
  Tests mit hoher Sensitivität haben einen geringen Fehler 2. Art.
 


<Abbildung: 4-Felder-Matrix zu Testergebnissen: Beurteilung eines Klassifikators

Der prädiktive Wert gibt an, wie hoch der Prozentsatz der zutreffenden (negativen oder positiven) Befunde an der Gesamtheit der (negativen oder positiven) Situationen ist (ein Maß für die Wahrscheinlichkeit richtiger Diagnosen). Zu Sensitivität und Spezifität s. vorausgehenden Text.
 
r = richtig   f = falsch   p = positiv   n = negativ


Populationen, die sich im betreffenden Zustand unterscheiden, überschneiden sich in Hinblick auf die Messgröße (diagnostischer Test, Prüfungsergebnis,..). Man kann die Fehlerwahrscheinlichkeit 2. Art durch Vergrößerung des Stichprobenumfangs zwar verringern, aber das verursacht einen steigenden Aufwand (größere Kosten).

Es geht also um den erwarteten Nutzen diagnostischer Tests. Dabei ist zu beachten, dass die diagnostische Aussage nie 'sicher', sondern nur wahrscheinlich sein kann. Der Arzt 'weiß' nicht über das Schicksal eines Patienten Bescheid, sondern kann nur (mehr oder weniger begründete) Vermutungen anstellen.

Keine diagnostische Methode bietet absolut 'richtige' Resultate zur Frage, wie der Zustand einer Person tatsächlich ist. Es verbleibt immer eine Unsicherheit. Prinzipien der Statistik, der physiologische Gesamtzusammenhang, und individuelle Komponenten müssen in jedem Einzelfall Berücksichtigung finden.
 
  Ermittelte Messwerte (in Blut, Serum, Harn u.a.) werden danach beurteilt, ob sie in einem festgesetzten Referenzbereich liegen und damit diagnostisch unverdächtig sind. Liegen sie außerhalb dieses Bereichs, kann dennoch ein Fehler 1. Art vorliegen (gesunder Mensch mit "verdächtigem" Laborbefund). Umgekehrt garantiert ein Wert innerhalb des Bereichs nicht, dass keine Krankheit vorliegt (es kann ein Fehler 2. Art vorliegen); beides kann jeweils nur mit einer bestimmten Wahrscheinlichkeit angenommen werden.
 
Hypothesentestung
 
Mit der Anwendung biometrischer Verfahren ist in jedem Fall die Planung der Untersuchung verbunden, da eine sinnvolle Datenauswertung direkt mit der 'Philosophie' der Studie zusammenhängt. So sollten die Elemente der Stichproben (untersuchte Patienten) in allen anderen Merkmalen (als dem Unterscheidungskriterium, z.B. Kopfschmerzdauer) möglichst nicht verschieden sein (d.h. gleiche Alters-, Geschlechts-, Krankheitsverteilung usw.).

  Dies erreicht man durch Randomisierung, d.h. zufällige Zuordnung von Probanden zu den Testgruppen, um (unbeabsichtigte) systematische Fehler (Trend, bias) zu vermeiden - solche Fehler täuschen sonst einen Effekt vor, der in Realität nicht besteht. Dies ist eine Anforderung an das Studiendesign.
 

<Abbildung: Asymmetrische Verteilung (hier: mit positiver skewness)

Der Modalwert ist der häufigste Wert in der Stichprobe, der Medianwert teilt die Stichprobe in zwei gleich große Hälften, und der Mittelwert gibt den durchschnittlichen Messwert an (arithmetrisches Mittel).
 
Bei einer perfekten symmetrischen Verteilung haben Modal-, Median- und Mittelwert einen identischen Betrag.

Vergleicht man asymmetrisch verteilte Stichproben, gelangen nicht-parametrische Tests zur Hypothesentestung zum Einsatz

 
Man unterscheidet
    verteilungsabhängige (parametrische) statistische Verfahren (parametric tests), z.B. der t-Test (Student's t), der zwei, und die ANOVA (analysis of variance), die zwei oder mehr normalverteilte Stichproben (Gauss-Glockenkurve, s. oben) vergleichen lässt;
 
    verteilungsunabhängige (parameterfreie) Verfahren (non-parametric tests), z.B. der Mann-Whitney U-, Wilcoxon-, Kruskal-Wallis- oder Friedman-Test: Nicht die gemessenen Werte an sich werden verglichen, sondern aufgrund dieser Werte ermittelte Rangzahlen (Beispiel Altersverteilung: Statt dem Alter in Jahren - z.B. 9 bis 90 Jahre - werden die Ränge der Datenpunkte (1 bis x) verglichen). Diese Verfahren werden genutzt, wenn die Werte der Stichproben nicht  normalverteilt sind.

Der Grad der Asymmetrie, also die "Schiefe" (skewness) einer Verteilung kann durch eine entsprechende Kennzahl quantifiziert werden, beispielsweise Pearson's S:

S = (µ - M) / SD

wobei µ = Mittelwert, M = Medianwert und SD = Standardabweichung. Der Wert von S kann zwischen -1 und +1 liegen; ist die Verteilung symmetrisch, beträgt [S] gleich Null - Mittelwert und Medianwert fallen zusammen, [µ-M] muss daher 0 sein.

Von negativer Schiefe spricht man bei einer linksschiefen / rechtssteilen Verteilung; von positiver Schiefe bei einer rechtsschiefen / linkssteilen Verteilung (z.B. <Abbildung oben). Rechtsschiefe Verteilungen zeigen oft (wenn auch nicht immer) ein positives, linksschiefe ein negatives S.

Es ist legitim, Daten so umzuwandeln, dass aus einer schiefen Verteilung eine normalverteilte wird, z.B. durch Logarithmierung. Dann können (auch) parametrische Tests zur Anwendung kommen.

Entscheidend für die Hypothesenprüfung ist der p-Wert ( Bedeutung s. oben), der bei allen diesen Tests ermittelt werden kann.

Es gibt zahlreiche weitere Tests, die im naturwissenschaftlich-medizinischen Bereich Anwendung finden, z.B.

    Der Chi-Quadrat- (chi-squared) Test: Dieser vergleicht den Unterschied zwischen beobachteter und erwarteter (Nullhypothese wahr) Stichprobenverteilung; je größer der Unterschied, desto größer der Χ2-Wert (bei fehlender Ungleichheit ist [Χ2]=0). Auch bei diesem Test kann man den p-Wert ermitteln, um die Wahrscheinlichkeit anzugeben, dass in Wirklichkeit kein Unterschied zwischen den Stichproben besteht.
 

 
      Messwerte können qualitativ (z.B. männlich / weiblich) oder quantitativ dargestellt werden, letztere diskret (z.B. Leukozytenzahl) oder stetig (z.B. Betrag des Blutdrucks). Die Art der Darstellung einer Häufigkeitsverteilung sowie passende statistische Verfahren hängen von der Art des Merkmals und seiner Verteilung ab. Biometrie wendet statistische Methoden auf die Lösung biologischer Probleme an. Man unterscheidet deskriptive (Mittelwert, Varianz) und induktive Statistik (Hypothesentestung, Wahrscheinlichkeitsrechnung)
 
      Deskriptive Statistik ermittelt Häufigkeitsverteilungen und gibt Streumaße an, wie den arithmetrischen Mittelwert (AMW), den Modalwert oder den Medianwert. Der AMW liegt beim häufigsten Wert einer Normalverteilung (Gauss-sche Glockenkurve), die Standardabweichung (SD) kennzeichnet die Streuung der Messwerte um den Mittelwert: Der Bereich AMW ± 1 SD umfasst 68,2%; AMW ± 2 SD 95,4%; und AMW ± 3 SD 99,7% aller Beobachtungen. Bei einer perfekten symmetrischen Verteilung haben Modal-, Median- und Mittelwert den identischen Betrag. Teilt der AMW die Verteilung nicht in zwei gleich große Hälften, liegt keine Normalverteilung vor; der Medianwert trennt die oberen von den unteren 50% der Verteilung, der Modalwert ist der häufigste Wert in der Stichprobe. Box and whisker-Plots zeigen die 25- und 75%-Perzentile (box), definierte Minimal- und Maximalwerte (whiskers) und (individuell) außerhalb liegende Ausreißer
 
      Absolutgenauigkeit (accuracy) gibt die Richtigkeit einer Messung als die Differenz zwischen dem wahren Wert und dem Mittelwert der Messergebnisse an, Präzision (precision) die Wiederkehrgenauigkeit als Verteilungsbreite (schmale Streuung hohe Präzision). Das Konfidenzintervall gibt an, in welchem Bereich der wirkliche Mittelwert (derjenige der gesamten Population) liegt
 
      Schließende Statistik errechnet, wie wahrscheinlich vermutete Sachverhalte zutreffen (Hypothesentestung). Dazu erhebt man Daten an Zufallsstichproben, die mittels Auswahlverfahren ausgesucht werden. Der p-Wert quantifiziert die Wahrscheinlichkeit der Nullhypothese, d.h. dass sich die verglichenen Kollektive hinsichtlich des untersuchten Merkmals nicht unterscheiden (Sicherheit: p=1,0; Unmöglichkeit: p=0,0). Liegt er z.B. bei 0,05, heißt das, dass der Effekt in einem von 20 Untersuchungen (5%) durch Zufall auftreten würde, üblicherweise gilt das Ergebnis dann als signifikant. Ob der Effekt auch relevant ist, hängt vom Zusammenhang ab
 
      Fehler 1. Art (α-Fehler) heißt, die Nullhypothese wird zurückgewiesen, obwohl sie in Wirklichkeit richtig ist (α-Risiko): Die Entscheidung ist falsch positiv (Vermutung: Person krank, obwohl das nicht zutrifft: "Fehlalarm"). Spezifität ist die Wahrscheinlichkeit, mit der der Test in der Gruppe der Gesunden korrekterweise ein negatives Ergebnis anzeigt; Tests mit hoher Spezifität haben einen geringen Fehler 1. Art
 
      Fehler 2. Art (β-Fehler) bedeutet, die Nullhypothese wird beibehalten, obwohl sie in Wirklichkeit falsch ist (β-Risiko): Die Entscheidung ist falsch negativ (diagnostisch unempfindlich - "o.B.", obwohl die Person objektiv krank ist). Sensitivität ist die Wahrscheinlichkeit, mit der der Test in der Gruppe der Kranken korrekterweise ein positives Testergebnis anzeigt; Tests mit hoher Sensitivität haben einen geringen Fehler 2. Art
 
      Messwerte werden in erster Linie danach beurteilt, ob sie in einem festgesetzten Referenzbereich liegen (diagnostisch unverdächtig sind). Liegen sie innerhalb des Referenzbereichs, kann dennoch ein Fehler 2. Art vorliegen (kranker Mensch mit unverdächtigem Befund); liegt er außerhalb, kann dennoch ein Fehler 1. Art vorliegen (gesunder Mensch mit verdächtigem Befund). Eine diagnostische Aussage kann nie zu 100% sicher sein. Der prädiktive Wert ist ein Maß für die Wahrscheinlichkeit richtiger Diagnosen: Er gibt an, wie hoch der Prozentsatz der zutreffenden (negativen oder positiven) Befunde an der Gesamtheit der (negativen oder positiven) Situationen ist
 
      Hypothesentestung braucht Randomisierung (zufallsgeleitete Zuordnung von Probanden zu Testgruppen), um systematische Fehler (die einen nicht existierenden Effekt vortäuschen könnten) zu vermeiden (Anforderung an das Studiendesign). Bei Normalverteilungen (Glockenkurve) können verteilungsabhängige (parametrische) statistische Verfahren, z.B. Student's t-Test oder ANOVA (analysis of variance) zur Anwendung kommen. Bei anderen - negativ (links-) oder positiv (rechtsschiefen) - Verteilungen verwendet man verteilungsunabhängige (parameterfreie) Verfahren, z.B. Mann-Whitney U-, Wilcoxon-, Kruskal-Wallis- oder Friedman-Test (nicht gemessene Werte, sondern Rangzahlen werden verglichen). Der Grad der Asymmetrie (skewness) der Verteilung kann durch eine entsprechende Kennzahl quantifiziert werden, beispielsweise Pearson's S. Man kann schiefe zu Normalverteilungen umformen, z.B. durch Logarithmierung
 

 

Eine Reise durch die Physiologie


  Die Informationen in dieser Website basieren auf verschiedenen Quellen: Lehrbüchern, Reviews, Originalarbeiten u.a. Sie sollen zur Auseinandersetzung mit physiologischen Fragen, Problemen und Erkenntnissen anregen. Soferne Referenzbereiche angegeben sind, dienen diese zur Orientierung; die Grenzen sind aus biologischen, messmethodischen und statistischen Gründen nicht absolut. Wissenschaft fragt, vermutet und interpretiert; sie ist offen, dynamisch und evolutiv. Sie strebt nach Erkenntnis, erhebt aber nicht den Anspruch, im Besitz der "Wahrheit" zu sein.