Quelle: xkcd

Einführung

In vielen Bereichen der Forschung (aber auch darüber hinaus) geht es darum Aspekte der Welt besser zu verstehen. Gerade in naturwissenschaftlich geprägteren Bereichen geht es dabei häufig darum Wirkmechanismen zu finden und zu verstehen. In anderen Worten, es geht darum Ursache-Wirkung-Paare zu identifizieren. Z.B. ist eine Tumorerkrankung der Lunge ursächlich dafür, dass die CT-Aufnahme anders aussieht. Solche Ursache-Wirkung-Beziehungen werden als Kausalität bezeichnet.

In der beschreibenden Statistik gibt es den Begriff der Korrelation. Dieser wird häufig mit Kausalität gleichgesetzt oder auch gerne mal verwechselt. Zwei Variablen eines Datensatzes (z.B. eben der Gesundheitszustand der Lunge und die Anzahl der Tumore auf dem CT-Bild) sind korreliert, wenn auf dem Datensatz ein (linearer) Zusammenhang besteht. Also, falls sich die eine Variable verändert die zweite ebenso verändert.

Auf den ersten Blick wirkt diese Beschreibung sehr ähnlich zur Kausalität, allerdings gibt es einen entscheidenden Unterschied: Korrelation ist symmetrisch, während Kausalität immer eine Richtung besitzt.

Korrelation misst ausschließlich ob sich zwei Variablen gleichzeitig verändern, allerdings völlig ohne Aussage darüber, ob die eine Variable die Ursache und die andere die Wirkung ist (oder umgekehrt). Tatsächlich ist es ohne weiteres möglich, dass zwei Variablen korreliert sind, ohne dass ein kausaler Zusammenhang besteht! Zur Inspiration könnt ihr euch ja mal die Beispiele auf der Website Spurious Correlations anschauen.

Statistik alleine kann immer nur Korrelationen finden. Für Kausalität braucht man darüber hinaus gutes experimentelles Design. Es gibt jedoch Tools oder Denkstützen, die einem helfen können Korrelationen abzuklopfen und Hypothesen zu generieren, was die Ursache für die Korrelation sein könnte. Darum wird es im ersten Teil gehen. Diese Hilfsmittel werden als Kausale Diagramme (engl. causal diagrams) bezeichnet.

Kausale Diagramme

Ein kausales Diagramm ist ein sogenannter gerichteter Graph. Er besteht aus Ecken und Kanten. Die Ecken sind dabei die Größen, die uns interessieren (z.B. Wahrscheinlichkeit für Hautkrebs, Zeit in direkter Sonne, Vitamin D Level, etc.). Zwei dieser Ecken werden durch einen Pfeil (die Kante) verbunden, wenn ein direkter kausaler Zusammenhang zwischen den Größen besteht. Beispielsweise sorgt mehr Zeit in direkter Sonne zu mehr Schäden an Hautzellen, so dass zwischen diesen beiden Ecken ein Pfeil eingeführt wurde.

Was genau eine “direkter kausaler Zusammenhang” ist, hängt von der Modelierung ab und kann nicht allgemein beantwortet werden. Z.B. könnte man anstatt direkt von der Zeit in der Sonne zu Schädigungen der Zelle über Licht-Gewebe-Interaktion gehen und die Erzeugung freier Radikale etc. Wichtig ist dabei im Hinterkopf zu behalten, dass das Diagramm helfen soll systematisch wichtige Größen zu identifizieren und Probleme zu strukturieren. Von daher kann es Sinn ergeben grob anzufangen und das Diagramm bei Bedarf zu verfeinern.

Bausteine kausaler Diagramme. (a) Eine kausale Kette A (z.B. Zeit in direkter Sonne) verursacht B (z.B. Schaden an Hautzellen) und B verursacht C (z.B. Hautkrebs). B wird als Mediator von A und C bezeichnet. (b) A verursacht sowohl B als auch D (z.B. Vitamin D Level). In dieser Konstellation wird A als Confounder bezeichnet. (c) A und E (z.B. genetische Prädisposition) beeinflussen B. In dieser Konstellation wird B als Collider bezeichnet. (d) Beispiel eines größeren kausalen Diagramms, das die Bausteine aus (a) - (c) enthält. Quelle: Castro et al. (2020), Causality matters in medical imaging

Das obige Bild (a) - (c) enthält Bausteine bzw. wichtige Muster kausaler Diagramme. Insbesondere (b) und (c) sind wichtig, da diese Konstellationen zu Korrelationen führen können ohne, dass ein direkter Kausaler Zusammenhang besteht!

Im folgenden wollen wir uns diese beiden Fälle genauer anschauen. Das machen wir anhand des Beispiesl aus Castro et al. (2020), Causality matters in medical imaging, das bereits im obigen Bild angedeutet ist. Wir führen Abkürzungen für die folgenden Größen ein:

A: Zeit in direkter Sonne
B: Grad der Schädigung von Hautzellen
C: Grad/Stärke Hautkrebs
D: Vitamin D Level
E: Genetische Prädisposition für Hautkrebs

Die kausalen Zusammenhänge zwischen diesen Größen wird im Bild unter (d) dargestellt.

Confounder (Simpson-Paradoxon)

Bild (b) zeigt einen Ausschnitt des ganzen kausalen Diagramms (d). Es beschreibt, dass A (Zeit in der Sonne) einen kausalen Einfluss auf B (Schädigung der Hautzellen) und D (Vitamin D Level) hat. In einer solchen Konstellation, wo eine Größe zwei (oder mehr) andere größen Beeinflusst wird die ursächliche Größe (hier: A) als Confounder (dt. Störfaktor) bezeichnet. Warum Störfaktor?

Weil uns A einen Zusammenhang zwischen D und B vorgaukeln kann, obwohl dieser gar nicht besteht!

Gedankenexperiment: Wir machen eine Studie bei der sowohl Messungen der Hautschäden (B) und Vitamin D Level (D) von einer großen Kohorte an Probanden bestimmt werden. Allerdings können wir (warum auch immer) die Zeit in der Sonne (A) nicht mit messen. Bei einer großen Kohorte können wir nun trotzdem davon ausgehen, dass die Probanden verschieden lange in der Sonne saßen und von daher die Schädigung der Haut und das Level an Vitamin D variieren wird und zwar so, dass Personen mit stärkerer Hautschädigung tendenziell höhere Vitamin D Werte vorweisen. Wir beobachten also eine Korrelation zwischen B und D! Ohne zusätzliche Informationen könnte uns das zu dem Trugschluss führen, dass Vitamin D die Haut schädigt! In dem Fall hätten wir aus der Korrelation eine (falsche) Kausalität von D→B abgeleitet.

Diese Korrelation tritt aber nur auf, weil B und D von A abhängen und wir diese Größe nicht mitgemesen geschweige denn “kontrolliert” haben. A “kontrollieren” würde in unserem Fall bedeuten, dass wir nur noch Personen mit ähnlich viel Zeit in der Sonne miteinander vergleichen (z.B. vergleichen wir nur noch die Hautschädigung und Vitamin D Level von Personen die 5-6h pro Woche direkter Sonneneinstrahlung ausgesetzt sind). Diese Kontrolle würde die Korrelation zwischen B und D aufheben oder vielleicht sogar umkehren (falls Vitamin D die Haut vor Schäden schützen sollte). Die obige Beobachtung wird als Simpson-Paradoxon bezeichnet.

Der Trend (die Korrelation) kehrt sich um, wenn anstelle der Gesamtmenge Untergruppen betrachtet werden. Dieser Effekt wird als Simpson-Paradoxon bezeichnet. Quelle: Wikipedia

Die Key Message hier ist: Wenn euch eine Korrelation begegnet und ihr euch fragt, ob ein kausaler Zusammenhang besteht, ist es eine gute Idee nach gemeinsamen Ursachen für die beiden Größen zu suchen, die eine Korrelation verursachen kann ohne kausalen Zusammenhang.

Collider (Berksons Paradoxon)

Bild (c) zeigt einen weiteren Ausschnitt des ganzen kausalen Diagramms (d). Es beschreibt, dass A (Zeit in der Sonne) und E (genetische Prädisposition) einen kausalen Einfluss auf B (Schädigung der Hautzellen) haben. In einer solchen Konstellation wird B als Collider (ich kenne leider keine deutsche Übersetzung) bezeichnet. Auch hier kann Unkenntnis über B dazu führen, dass eine Korrelation zwischen A und E auftritt, die keinen kausalen Ursprung hat. Der Mechanismus ist dabei komplementär zu dem bei den Confoundern.

Ein weiteres Gedankenexperiment: In dieser Studie messen wir die Zeit in der Sonne (A) und besetimmen genetische Prädispositionen für Hautschädigungen (E). Diese Messungen führen wir bei Patienten durch, die bereits Hautschädigungen aufweisen. Das bedeutet, dass wir implizit für B kontrollieren! Wenn wir uns dessen nicht bewusst sind, sieht es auf einmal so aus als wären A und B negativ korreliert. Denn Leute die weder viel in der Sonne sind noch eine genetische Prädisposition haben, sind vermutlich in unserem Datensatz unterrepräsentiert. Andersherum haben die meisten Personen in unserem Datensatz vermutlich entweder viel Zeit in der Sonne verbracht oder eine Prädisposition oder beides. Das alleine suggeriert bereits eine negative Korrelation, die uns zu dem Schluss verleiten könnte, dass ein kausaler Zusammenhang zwischen Zeit in der Sonne und Prädisposition besteht. Wir könnten z.B. postulieren, dass Leute mit Prädisposition automatisch weniger Zeit in der Sonne verbringen. Die Korrelation zweier Grüßen aufgrund der (impliziten) Kontrolle einer dritten Größe wird als Berksons Paradoxon bezeichnet. Ein weiteres bekanntes Beispiel für Berksons Paradoxon verbindet das Aussehen mit dem IQ von Personen. Die Schaubilder machen deutlich wie die Einschränkung auf bekannte Persönlichkeiten eine negative Korrelation vorgaukeln kann. Das Beispiel ist simuliert und basiert nicht auf echten Daten.

In der generellen Population scheint kein Zusammenhang zwischen IQ und Aussehen zu bestehen. Die Daten sind simulierte Beispieldaten ohne Realitätsbezug. Quelle: r-bloggers

Gehen wir davon aus, dass Stars und Sternchen in mindestens einer der beiden Größen, Aussehen und IQ, überdurchschnittlich sind (Warum würde man sie sonst im Fernsehen zeigen?), dann würde sich der Datensatz auf die rechte obere Ecke reduzieren (blaue Trennlinie). Quelle: r-bloggers

Auf dem reduzierten Datensatz finden wir auf einmal eine klare negative Korrelation zwischen IQ und Aussehen. Wenn wir jetzt wieder unter den Tisch fallen lassen, dass dieser Zusammenhang auf einer eingeschränkten Population hergeleitet wurde, haben wir eine tolle Schlagzeile für die Zeitung! Quelle: r-bloggers

Die Key Message an diesem Beispiel ist: Eine weitere Möglichkeit zu checken, ob eine Korrelation Sinn ergibt, ist nach Collidern zu suchen. Das sind Größen, die von den korrelierten Größen abhängen und die implizit kontrolliert (also fixiert wurden).

Leitfragen - Kausalität vs Korrelation

Ein weitverbreitetes Beispiel für eine Korrelation mit fragwürdiger Kausalität ist das Folgende: Die Geburtenrate in Westdeutschland korrelierte in den 60er Jahren mit der Dichte der Störche in der Region. Was könnte ein zugrunde liegender Mechanismus für diese Beobachtung sein? Welche Confounder oder Collider könnte es geben?
Ein verbreitete Binsenweisheit setzt den IQ mit Fähigkeiten beim Geschlechtsverkehr in Verbindung. Welche Confounder oder Collider könnten hinter dieser (hypothetischen) Korrelation stecken?
Sowohl das Simpson-Paradoxon als auch Berksons Paradoxon sind zunächst einmal nur (evtl. überraschende) Effekte der Statistik. Allerdings kann (unabsichtliche oder absichtliche) ungenaue Berichterstattung (sowohl in der Presse als auch in wissenschaftlichen Publikation) leicht instrumentalisiert werden, um vermeintlich kausal Zusammenhänge zwischen unabhängigen Größen herzustellen. Wie kann das Simpson-Paradoxon bzw. Berksons Paradoxon instrumentalisiert werden? Was muss hervorgehoben, was unter den Tisch gekehrt werden?
Experiment (evtl. mit weiteren Teilnehmenden der Akademie): Untitled

Fragt weitere Workshop- und/oder Akademie-Teilnehmende nach ihren musikalischen und gesellschaftlichen Aktivitäten und tragt die Antworten in obiger Tabelle ein.
Gibt es einen Zusammenhang bzw. eine Korrelation?
Untermauern eure Ergebnisse die Hypothese, dass musikalische Menschen weniger gesellschaftlich aktiv sind? Warum?
Was hat eure Studie mit Confoundern und/oder Collidern zu tun (falls sie etwas damit zu tun hat)?

Fallen euch Confounder oder Collider ein, die die Korrelationen auf Spurious Correlations erklären können?
Welche weiteren Beispiele fallen euch ein bei denen Confounder oder Collider zu einer Korrelation unabhängiger Größen führen?

Unintuitive Korrelation

Selbst wenn man die Diskussion Kausalität vs. Korrelation vermeidet und sich ausschließlich auf die deskriptive Größe der Korrelation beschränkt, beobachtet man zum Teil unintuitives Verhalten. Ein Beispiel dafür ist die sogenannte Regression zur Mitte (engl. Regression towards the mean), die besonders häufig im Sport beobachtet werden kann. Diese könnt ihr mit einem eigenen Experiment beobachten.

Sei es durch Training oder Talent verschiedene Personen sind zu einem Zeitpunkt und in einer Sportart generell verschieden “sportlich”. Nehmen wir als Beispielsportart das Rückwärtswerfen einer Münze so nah wie möglich an einen vorgegebenen Punkt. Je näher man am Punkt landet desto besser. Wird zweimal geworfen so sollte das Ergebnis der beiden Würfe über die Größe “Sportlichkeit” der Person korreliert sein, d.h. wer beim ersten Wurf gut war, wird vermutlich auch beim zweiten gut sein.

Falls ihr Zeit und Lust habt, führt das Experiment gerne selbst durch und tragt eure Ergebnisse in dieser Tabelle ein: Untitled. Das Experiment habe ich in Thinking Fast & Slow gefunden.

Anleitung/Leitfragen - Regression zur Mitte Experiment

Markiert zwei Punkte auf dem Boden die min. 1,5m voneinander entfernt sind. Einer ist der Startpunkt der andere der Zielpunkt.
Stellt euch nacheinander auf den Startpunkt mit dem Rücken zum Zielpunkt und versucht eine Münze so nahe wie möglich an den Zielpunkt zu werfen.
Messt nach jedem Wurf den Abstand der Münze zum Zielpunkt und notiert das Ergebnis in der Tabelle 1. Wurf - Abstand
Nach dem alle einmal geworfen haben, werfen alle nocheinmal. Die neuen Ergebnisse werden unter 2. Wurf - Abstand eingetragen.
Schaut euch die Grafiken in der Tabelle an. Dort werden die Platzierungen (Ränge) der Teilnehmenden nach dem ersten und zweiten Wurf gegeneinander aufgetragen. Was fällt euch auf? (Falls euch nichts auffällt, sprecht mich an 😃)
Was könnten Gründe für eure Beobachtung sein?

Ressourcen

Correlation

Correlation doesn't imply causation, but it does waggle its eyebrows suggestively and gesture furtively while mouthing 'look over there'.

xkcd.com

Causality matters in medical imaging

Nature Communications - Scarcity of high-quality annotated data and mismatch between the development dataset and the target environment are two of the main challenges in developing predictive tools...

www.nature.com

Spurious correlations

www.tylervigen.com

Thinking, Fast and Slow

Thinking, Fast and Slow is a 2011 book by psychologist Daniel Kahneman. The book's main thesis is a differentiation between two modes of thought: "System 1" is fast, instinctive and emotional; "System 2" is slower, more deliberative, and more logical.

en.wikipedia.org

Untitled

NCBI - WWW Error Blocked Diagnostic

www.ncbi.nlm.nih.gov

Collider Bias, or: Are Hot Babes Dim and Eggheads Ugly? | R-bloggers

Correlation and its associated challenges don’t lose their fascination: most people know that correlation doesn’t imply causation, not many people know that the opposite is also true (see: Causation doesn’t imply Correlation either) and some know that correlation can just be random (so-called spurious correlation). If you want to learn about a paradoxical effect nearly … Continue reading "Collider Bias, or: Are Hot Babes Dim and Eggheads Ugly?"

www.r-bloggers.com

Collider Bias, or: Are Hot Babes Dim and Eggheads Ugly? | R-bloggers

Untitled

Beispiel: COVID Vergleich: Italien vs. China

Die fabelhafte Welt der Mathematik: Gegen jede Intuition

Das Simpson-Paradox führt vor, wie kontraintuitiv Statistik sein kann

www.spektrum.de

Die fabelhafte Welt der Mathematik: Gegen jede Intuition

www.math.kit.edu

Beispiel: Abitur und Migration

Simpsons Paradoxon: Diese Statistik kann nicht stimmen. Oder doch?

Absurd: In jedem Studienfach ist die Zulassungsquote von Frauen höher als von Männern - doch insgesamt stehen Frauen trotzdem schlechter da. Simpsons Paradoxon heißt das Phänomen. Wer Zahlen wirklich verstehen will, sollte es kennen.

www.spiegel.de

Deutschland: Fast jeder Dritte mit Migrationshintergrund hat Abitur

Fast jeder dritte Einwohner Deutschlands mit Migrationshintergrund hat Abitur oder Fachhochschulreife - so viele wie nie zuvor. Allerdings spielt das Herkunftsland eine große Rolle.