Grundlagen und Methoden der Physiologie; molekulare und zelluläre Aspekte

 
Streuung, Normalwerte, Hypothesentestung, Fehler

zurück weiter
© H. Hinghofer-Szalkay

Diagnose: διά = durch, γνώσις = Erkenntnis, Urteil
Falsifikation: falisificare = als falsch erkennen
Gauß'sche Glockenkurve: Carl Friedrich Gauß
Hypothese: ὑπόθεσις =
GrundlageVoraussetzung, Unterstellung
Randomisieren: random = zufällig
Signifikanz: signum = (Kenn)Zeichen, Signal
stochastisch: στοχαστικὴ τέχνη = Ratekunst
Theorie: θεωρεῖν  = betrachten, θεωρία = Sehen, Anschauung, wissenschaftliche Betrachtung, Überlegung, Einsicht
Varianz: variare = (ver)ändern, verschieden sein


Biometrie (Biostatistik) verwendet mathematische Verfahren zur Organisation, Darstellung und Beurteilung von Daten, die bei der wissenschaftlichen Untersuchung biologischer Systeme gewonnen werden. Sie stellt Ergebnisse von Beobachtungen oder experimentellen Studien dar (beschreibende oder deskriptive Statistik), bietet Schätz- und Testverfahren, und ermöglicht die Prüfung von Hypothesen (schließende oder induktive Statistik).

Bei letzterer können zwei Arten von Fehleinschätzungen unterlaufen:
   --
Fehler 1. Art, α-Fehler: Die Nullhypothese wird fälschlicherweise zurückgewiesen, obwohl sie zutrifft (falsch positive Einschätzung - es wird etwas gefunden, obwohl es nicht da ist. Beispiele: Krankheitsdiagnose beim Gesunden, zu strenger Prüfer - "Fehlalarm"). Hohe Spezifität bedeutet einen geringen Fehler 1. Art
   --
Fehler 2. Art, β-Fehler: Die Nullhypothese wird fälschlicherweise beibehalten, obwohl sie nicht zutrifft (falsch negative Einschätzung - es wird etwas verpasst, obwohl es da ist. Beispiele: Nichterkennen einer Krankheit, allzu nachsichtiger Prüfer - "Laissez-faire"). Hohe Sensitivität bedeutet einen geringen Fehler 2. Art

Das Ergebnis von Beobachtungen / Messungen unterliegt verschiedenen Fehlerquellen. Beispielsweise stellt sich die Frage nach der Genauigkeit:
   -- Mit Präzision meint man, wie stark (bei wiederholter Messung) die Resultate streuen (quantifizierbar mittels eines Varianzmaßes, z.B. Standardabweichung);
   -- Absolutgenauigkeit (accuracy) gibt an, wie "richtig" das Messverfahren arbeitet (Nähe des statistischen Mittelwertes der Resultate zum tatsächlichen Wert der gemessenen Größe).

Testdesign bedeutet planvolles Vermeiden von Fehlern. So ermöglicht Randomisierung (zufällige Zuteilung zu Testgruppen) unbeabsichtigte systematische Fehler (bias) zu vermeiden, welche z.B. einen Effekt (etwa eine Medikamentenwirkung) vortäuschen, der in Wirklichkeit nicht besteht.


Biometrie Beschreibende Statistik Absolutgenauigkeit / Präzision Schließende Statistik, Hypothesentestung Fehler (α, ß), Spezifität / Sensitivität


>Abbildung: Korrelation bedeutet nicht notwendigerweise Kausalität (Verursachung)
Nach: Richard Mould, Introductory Medical Statistics (CRC Press)

Die Bevölkerungszahl der Einwohner von Oldenburg zu Ende der Jahre 1930 bis 1936 ist als Funktion der in diesen Zeiträumen beobachteten Anzahl der Störche dargestellt
 (die Korrelation beweist nicht, dass Störche Kinder bringen )


Was ist gesund ("normal", physiologisch), was ist krank (abnorm, pathologisch)? Oft ist es nicht einfach, aufgrund einer Messung (z.B. Blutdruck) oder eines Laborwertes (z.B. Blutzuckerspiegel) eine klare Antwort zu finden, insbesondere wenn das Ergebnis in einem "Graubereich" liegt.

Physiologische / medizinische Messwerte sind mit einer gewissen Unsicherheit behaftet. Diese hat mehrere Ursachen. Die Ausprägung (der Messwert) eines Merkmals bei einem Merkmalsträger (Proband, Patient) hängt von der Art des Merkmals ab:


  qualitativ (ohne zahlenmäßige Ordnung, z.B. jung / alt, männlich / weiblich) oder

  quantitativ; ein quantitatives Merkmal ist

  diskret (Wertebereich: natürliche Zahlen, z.B. Leukozytenzahl) oder

  stetig (Wertebereich: reelle Zahlen, d.h. auf einer kontinuierlichen Skala liegend, z.B. Betrag des Blutdrucks).

Je nach Art des Merkmals differiert die Darstellung einer Verteilung, und werden unterschiedliche statistische Verfahren angewendet.
 
  Biometrie (gr. 'Lebensmessung') bzw. Biostatistik kann als die Anwendung statistischer Methoden auf die Lösung biologischer Probleme verstanden werden. Biomathematik setzt die Werkzeuge der Statistik und Mathematik für die Lösung medizinischer Fragestellungen oder die Beschreibung medizinischer Phänomene ein. Man unterscheidet

  beschreibende (deskriptive) Statistik - sie vermittelt Verfahren zur übersichtlichen Darstellung von Untersuchungsergebnissen, wie Mittelwert und Streumaße, z.B. die Varianz: Diese quantifiziert, wie breit die Streuung der Einzelwerte einer entsprechenden Größe in einer Gruppe ist (z.B. die Verteilung des Körpergewichts der Schüler einer Klasse);

  erkundende (explorative) Statistik - sie versucht, Daten, über deren Struktur wenig bekannt ist, sinnvoll darzustellen;

  schließende (induktive) Statistik - sie bietet Schätz- und Testverfahren, ermöglicht die Prüfung von Hypothesen durch statistische Tests. Annahmen können bei geringer Wahrscheinlichkeit für ihre Gültigkeit als widerlegt gelten (Falsifizierung: Statt einer vorgeschlagenen Hypothese nimmt man im Fall ihrer Widerlegung eine als besser geeignet erscheinende Antithese an).
 
Beschreibende (deskriptive) Statistik (descriptive statistics)
  Mittels beschreibender Statistik werden Häufigkeitsverteilungen ermittelt, Kenngrößen für die Streuung (Spannweite oder Variationsbreite, range; von kleinstem bis größtem Wert) von Merkmalsausprägungen angegeben - z.B. als Standardabweichung (standard deviation SD, definiert als die Quadratwurzel aus der Varianz) um den Mittelwert:
 
   
 
Dabei bedeutet X den Wert einer Einzelmessung, X-quer den arithmetischen Mittelwert aus allen Beobachtungen, n die Zahl der Beobachtungen; der unter der Wurzel angegebene Term ist die Varianz.

Vieles in der Medizin wird in
Prozent (Hundertstel) angegeben. Dabei ist es wesentlich, immer die Frage zu stellen, % wovon (100% = 1), d.h. die Gesamtheit von etwas - dieses Etwas muss definiert werden.
  Eine Prozentzahl ohne Kenntnis / Angabe der Gesamtheit (=1) ist sinnlos - Beispiel: Wie groß bist Du? Antwort: 110 Prozent

Prozentwerte können irreführend sein: Wird z.B. gesagt, eine Partei habe 20% Stimmen dazugewonnen, kann das viel sein - etwa wenn 1 die Gesamtheit aller Wähler bedeutet - oder wenig, wenn mit "1" eine kleine Teilmenge gemeint ist, etwa die Anhänger
einer Minipartei...


Explorative Statistik stellt u.a. Zusammenhänge von Merkmalen und Einflussgrößen dar - z.B., wie verhält sich die Tageszeit zu Ihrer Laune? Darstellbar ist dies mittels einer Regressionsanalyse (=Analyseverfahren, das die Beziehung mehrerer Variablen modelliert). Dabei werden Daten im Konnex dargestellt, ohne noch eine abschließende Interpretation zu geben (das ist Aufgabe der schließenden, nicht der beschreibenden Statistik).

Zum Begriff der "Genauigkeit" ist zu unterscheiden zwischen

  Absolutgenauigkeit (accuracy), d.h. wie richtig das durchschnittliche Resultat des Messverfahrens ist. Statistisch ist dies beschreibbar als die Differenz zwischen dem "Referenzwert" (wahren Wert) und dem Mittelwert der Messergebnisse;

  Präzision (precision), d.h. wie verlässlich das Resultat bei wiederholter Messung wiederkehrt (statistisch beschreibbar, z.B. als Normalverteilung wie in der Abbildung). Die Präzision ist über eine Verteilungsbeschreibung quantifizierbar (z.B. wie groß ist die Standardabweichung einer Normalverteilung der Messergebnisse?).
 
So kann eine Waage immer wieder einen falschen Absolutwert angeben; dann ist die Präzision möglicherweise hoch ("immer genau daneben"), die Absolutgenauigkeit aber gering (Abweichung vom wahren Wert).
Sie kann aber auch umgekehrt im Schnitt den wahren Wert anzeigen, nur die Einzelmessungen streuen stark - breite Verteilung; hohe Absolutgenauigkeit, geringe Präzision; wiederholte Messungen ergeben im Schnitt das richtige Resultat.
 

>Abbildung: Häufigkeits-Verteilungskurve (Gauß'sche Glockenkurve)


Normalverteilung, Mittelwert (Pfeil), Abstand vom Mittelwert in Beträgen der Standardabweichung (SD, standard deviation). Der Bereich von -2 SD bis +2 SD beinhaltet 95% der in dieser Verteilung beobachteten Einzelmessungen
Bei einer symmetrischen, d.h. Normalverteilung (Gauß-Verteilung, normal distribution) - eine eingipflige, stetige Verteilung, deren Form durch den Mittelwert und die Varianz der Messergebnisse vollständig definiert ist - überstreicht der Bereich, der von 2 Standardabweichungen unter dem Mittelwert bis zu 2 Standardabweichungen über dem Mittelwert liegt, 95% aller in dieser Verteilung beobachteten Werte (blauer Bereich in der <Abbildung). Diese Spanne wird als ein wichtiges Konfidenzintervall herangezogen und gilt z.B. in der klinischen Labordiagnostik als Referenzbereich. Jeweils 2,5% der Beobachtungen fällt aus dem Referenzbereich heraus, sie liegen vom Mittelwert weiter als zwei Standardabweichungen entfernt (violette Bereiche in der <Abbildung).

Klinische Messwerte, die innerhalb des doppelten Standardabweichungsbereichs liegen, werden im allgemeinen als "unauffällig" gewertet ("negativer Befund"). Fällt ein Messwert aus diesem Bereich heraus, gilt er als "auffällig" ("positiver Befund"). Das bedeutet natürlich nicht, dass der Lieferant eines "negativen" Befundes mit Sicherheit "gesund" und derjenige eines "positiven" Befundes automatisch "krank" ist (Fehler sind von der Probengewinnung über das Transport- und Messprozedere bis zur Dateninterpretation möglich, und es gibt biologische Besonderheiten). Außerdem sind die Referezbereiche oft abhängig von Alter und Geschlecht. Tatsächlich werden meist mehrere Kriterien für die Beurteilung des Gesundheits- bzw. Erkrankungszustands der betroffenen Person herangezogen.

  Physiologische ("unauffällige") Messwertbereiche in dieser Website bedeuten nicht immer die doppelte Standardabweichung um den Mittelwert. Richtwertgrenzen orientieren sich oft an klinischer Erfahrung, sie können im Rahmen von Consensus-Konferenzen festgelegt werden. Weiters muss berücksichtigt werden, dass Messergebnisse methoden- und laborabhängig sind (und damit die Referenzbereiche). Und: Literaturangaben sind uneinheitlich, oft auch unklar.
Für klinische Laborwerte wurde als primäre Datenquelle das Lexikon der Medizinischen Laboratoriumsdiagnostik (Gressner / Arndt, 2. Aufl. 2013, Springer-Verlag) herangezogen.

Schließende (induktive) Statistik (statistical inference)
  Die schließende Statistik rechnet Wahrscheinlichkeiten aus, mit denen vermutete Sachverhalte (z.B. über einen Kausalzusammenhang) zutreffen (oder nicht zutreffen). 
Biometrische Testverfahren sollen Hypothesen (vermutete Sachverhalte) anhand von Versuchsergebnissen überprüfen und gegenüber möglicherweise irreleitenden Zufallseffekten absichern.
  In komplexen Systemen (wie meistens im medizinischen Bereich) interagieren zahlreiche Größen, klare Ursachen-Wirkungs-Beziehungen sind oft schwer erkennbar, die Reduktion auf nur eine Einflussvariable unmöglich.

Theorien bauen auf Hypothesen auf; auch sie sind spekulativ, aber allgemeiner gehalten als (die ihnen zugrundeliegenden) Hypothesen, die (jede für sich) wissenschaftlich getestet werden können.

  Resultat eines statistischen Schlusses ist nicht Gewissheit (Sicherheit), sondern eine bestimmte Wahrscheinlichkeit (probability), mit der z.B. ein Unterschied zwischen den geprüften Stichproben (z.B. je 20 Patienten) in Bezug auf die geprüfte Einflussgröße tatsächlich besteht. Eine getroffene Aussage (z.B. ob Kopfschmerz nach Gabe von Aspirin rascher abklingt als bei Verwendung eines Placebo) wird als mehr oder weniger wahrscheinlich gewertet.

Immer bleibt in solchen Fällen eine Restwahrscheinlichkeit, dass eine getroffene Schlussfolgerung (z.B. ein getestetes Medikament reduziert Schmerzen in Dauer oder Intensität) unzutreffend ist. (Dabei ist es durchaus möglich, dass nicht das Medikament an sich, sondern seine Einnahme einen schmerzlindernden Effekt hat - Placebo-Wirkung).

Als (allenfalls zu falsifizierende) Nullhypothese (null hypothesis) definiert man die Vermutung, dass zwischen zwei zu vergleichenden Stichproben (=Teile der Gesamtheit; dies könnten z.B. alle Kopfschmerzpatienten auf der Welt sein) kein Unterschied (z.B. bezüglich der Kopfschmerzdauer) besteht. Die Wahrscheinlichkeit, dass diese Vermutung zutrifft, ist umso kleiner, je wahrscheinlicher ein Unterschied - in Bezug auf die getestete Variable - zwischen den beiden Stichproben (z.B. Aspirin vs. Placebo) ist.

Wenn die Wahrscheinlichkeit (Wahrscheinlichkeitstheorie = Stochastik ) der Nullhypothese unter 5% (p<0,05) liegt, wird ein Unterschied (Effekt des Medikaments) angenommen - das Ergebnis ist signifikant (man vermutet, Aspirin ist wirkungsvoller als Placebo). Die Wahl dieses 'Schwellenwerts' ist eine willkürliche Konvention; je niedriger der p-Wert, desto überzeugender (wahrscheinlicher richtig) ist jedenfalls das Ergebnis.

Ob es auch relevant ist, muss unabhängig davon entschieden werden; es ist möglich, dass ein signifikantes Ergebnis dennoch irrelevant ist, z.B. weil der Effekt zu gering ausfällt - z.B. eine Blutdrucksenkung um 1% - oder weil die Frage der Untersuchung falsch gestellt wurde.
Hypothesentestung: Man unterscheidet

  verteilungsabhängige (parametrische) statistische Verfahren (z.B. der t-Test, der zwei normalverteilte Stichproben vergleicht) und

  verteilungsunabhängige (parameterfreie) Verfahren (z.B. der Wilcoxon-Test: Nicht die gemessenen Werte an sich werden verglichen, sondern aufgrund dieser Werte ermittelte Rangzahlen) - sind die Stichproben nicht normalverteilt, sind nicht-parametrische Tests angebracht.

Mit der Anwendung biometrischer Verfahren ist in jedem Fall die Planung der Untersuchung verbunden, da eine sinnvolle Datenauswertung direkt mit der 'Philosophie' der Studie zusammenhängt. So sollten die Elemente der Stichproben (untersuchte Patienten) in allen anderen Merkmalen (als dem Unterscheidungskriterium, z.B. Kopfschmerzdauer) möglichst nicht verschieden sein (d.h. gleiche Alters-, Geschlechts-, Krankheitsverteilung usw.).

  Dies erreicht man durch Randomisierung, d.h. zufällige Zuordnung von Probanden zu den Testgruppen, um (unbeabsichtigte) systematische Fehler (Trend, bias) zu vermeiden - solche Fehler täuschen sonst einen Effekt vor, der in Realität nicht besteht. Dies ist eine Anforderung an das Studiendesign.


Wahrheitsgehalt von Hypothesen, Fehler 1. und 2. Art, Spezifität und Sensitivität
 
Statistische Tests geben an, wie wahrscheinlich ein vermuteter Sachverhalt zutrifft bzw. eine Nullhypothese zurückgewiesen werden kann. Solche Überlegungen treffen auch auf die Beschreibung der Güte diagnostischer Tests zu. Es können zwei Arten von Fehlern unterlaufen:
 

>Abbildung: Überschneidung der Verteilungskurven der Ausprägung eines Merkmals in zwei Populationen

Ordinate: Häufigkeit; Abszisse: Betrag des interessierenden Wertes, z.B. Blutdruck. Das Merkmal ist in den Testgruppen normalverteilt

Die Power (Stärke) eines Tests sagt aus, wie wahrscheinlich ein bestehender Unterschied zwischen zwei Gruppen (die bezüglich des Testwertes verschieden sind) tatsächlich erkannt wird. Sie beträgt 1 minus dem Betrag des beta-Fehlers (s. unten). Je größer die Power, desto geringer die Wahrscheinlichkeit eines ß-Fehlers (dass  z.B. ein wirksames Medikament irrtümlich als unwirksam eingestuft wird)

Fehler 1. Art α-Fehler, type I error): Die Merkmalsverteilung der Stichproben kann dazu veranlassen, die Nullhypothese zu verwerfen, obwohl sie in Wirklichkeit richtig ist (z.B. wird vermutet, dass ein Medikament wirksam ist, obwohl die beiden Testgruppen sich in Wahrheit nicht unterscheiden). Die Höhe dieser Irrtumswahrscheinlichkeit nennt man das α-Risiko (Signifikanzniveau α).

Man sagt auch, die Entscheidung ist bei Vorliegen eines α-Fehlers falsch positiv. Auf eine medizinische Diagnose bezogen, heißt das: man geht von einem positiven Befund aus (Vermutung: Person krank), obwohl dies unzutreffend ist.

Eine diagnostische Methode mit hohem α-Risiko legt häufig ein verdächtiges Ergebnis nahe, obwohl dies nicht zutrifft ("Fehlalarm"). Oder: Ein Prüfer mit hohem α-Risiko ist besonders streng; dann werden auch zahlreiche gut vorbereitete Kandidaten negativ beurteilt.

Unter Spezifität versteht man die Wahrscheinlichkeit, mit welcher der Test in der Gesamtheit der objektiv nicht kranken Untersuchten auch ein negatives Testergebnis anzeigt.
  Tests mit hoher Spezifität haben einen geringen Fehler 1. Art.

Fehler 2. Art β-Fehler, type II error): Die Merkmalsverteilung der Stichproben kann dazu veranlassen, die Nullhypothese beizubehalten, obwohl sie in Wirklichkeit falsch ist (z.B. wird vermutet, dass ein Medikament unwirksam ist, obwohl die beiden Testgruppen sich in Wahrheit unterscheiden). Die Höhe dieser Irrtumswahrscheinlichkeit nennt man das Beta-Risiko.

Man sagt auch, die Entscheidung ist bei Unterlaufen eines β-Fehlers falsch negativ. Auf eine medizinische Diagnose bezogen, heißt das: die diagnostische Methode findet nichts (klinischer Jargon: 'ohne Befund' - o.B.), obwohl die Person objektiv krank ist.

Eine Methode mit hohem β-Risiko ist diagnostisch unempfindlich. Oder: Ein Prüfer mit hohem β-Risiko, d.h. geringer test power (=1-ß), ist besonders mild ("Laissez-faire"-Typ); bei ihm kommen auch ungenügend vorbereitete Kandidaten durch (was angenehm für Medizinstudent/inn/en, aber schlecht für deren zukünftige Patienten ist).

Unter Sensitivität versteht man die Wahrscheinlichkeit, mit welcher der Test in der Gesamtheit der objektiv kranken Untersuchten auch ein positives Testergebnis anzeigt.
  Tests mit hoher Sensitivität haben einen geringen Fehler 2. Art.

 
<Abbildung: 4-Felder-Matrix zu Testergebnissen: Beurteilung eines Klassifikators

Der prädiktive Wert gibt an, wie hoch der Prozentsatz der zutreffenden (negativen oder positiven) Befunde an der Gesamtheit der (negativen oder positiven) Situationen ist (ein Maß für die Wahrscheinlichkeit richtiger Diagnosen). Zu Sensitivität und Spezifität s. vorausgehenden Text

r = richtig
  f = falsch   p = positiv   n = negativ

Populationen, die sich im betreffenden Zustand unterscheiden, überschneiden sich in Hinblick auf die Messgröße (diagnostischer Test, Prüfungsergebnis,..). Man kann die Fehlerwahrscheinlichkeit 2. Art durch Vergrößerung des Stichprobenumfangs zwar verringern, aber das verursacht einen steigenden Aufwand (größere Kosten).

Es geht also um den erwarteten Nutzen diagnostischer Tests. Dabei ist zu beachten, dass die diagnostische Aussage nie 'sicher', sondern nur wahrscheinlich sein kann. Der Arzt 'weiß' nicht über das Schicksal eines Patienten Bescheid, sondern kann nur (mehr oder weniger begründete) Vermutungen anstellen.

Keine diagnostische Methode bietet absolut 'richtige' Resultate zur Frage, wie der Zustand einer Person tatsächlich ist. Es verbleibt immer eine Unsicherheit. Prinzipien der Statistik, der physiologische Gesamtzusammenhang, und individuelle Komponenten müssen in jedem Einzelfall Berücksichtigung finden.

Ermittelte Messwerte (in Blut, Serum, Harn u.a.) werden danach beurteilt, ob sie in einem festgesetzten Referenzbereich liegen und damit diagnostisch unverdächtig sind. Liegen sie außerhalb dieses Bereichs, kann dennoch ein Fehler 1. Art vorliegen (gesunder Mensch mit "verdächtigem" Laborbefund). Umgekehrt garantiert ein Wert innerhalb des Bereichs nicht, dass keine Krankheit vorliegt (es kann ein Fehler 2. Art vorliegen); beides kann jeweils nur mit einer bestimmten Wahrscheinlichkeit angenommen werden.

Graphische Übersicht klinisch-chemischer Normbereiche





Eine Reise durch die Physiologie


  Die Informationen in dieser Website basieren auf verschiedenen Quellen: Lehrbüchern, Reviews, Originalarbeiten u.a. Sie sollen zur Auseinandersetzung mit physiologischen Fragen, Problemen und Erkenntnissen anregen. Soferne Referenzbereiche angegeben sind, dienen diese zur Orientierung; die Grenzen sind aus biologischen, messmethodischen und statistischen Gründen nicht absolut. Wissenschaft fragt, vermutet und interpretiert; sie ist offen, dynamisch und evolutiv. Sie strebt nach Erkenntnis, erhebt aber nicht den Anspruch, im Besitz der "Wahrheit" zu sein.