A/B-Testing: Bayes vs. Frequentist-Ansatz
Soll das heißen, dass wir uns alle seit Jahren getäuscht haben?
1 Bayes vs. Frequentist, eine alte Debatte
Seit der Aufklärung stehen sich zwei große statistische Methoden gegenüber: Frequentist und Bayes. Der Frequentist-Ansatz beruht allein auf Beobachtungen, d.h. er ist experimental oder induktiv – während die Bayes’sche Methode erhobene Daten mit Kenntnissen kombiniert, die aus vorherigen Studien stammen oder Expertenmeinungen widerspiegeln, um zu einem Ergebnis zu gelangen.Der Unterschied lässt sich anhand eines konkreten Beispiels erklären.
Lassen Sie uns zehn Mal eine Münze werfen.
- Mit dem Frequentist-Ansatz gibt es eine „echte“ Wahrscheinlichkeit, dass Kopf oben liegt, den Wert K. Wenn wir sechs Mal Kopf sehen, liegt die Wahrscheinlichkeit für dieses Experiment bei 6 von 10, d.h. K= 0,6.
- Die Bayes’schen Methode interessiert sich weniger für die Wahrscheinlichkeit des Experiments als für das zugrundeliegende Gesetz. Denn wenn die Münze nicht verformt ist, liegt die Wahrscheinlichkeit, Kopf zu sehen bei 50% oder 0,5. Die Wahrscheinlichkeit wurde anhand von in der Vergangenheit durchgeführten Experimenten ermittelt.
2 Die Stärken der Bayes’schen Methode – und ihre Schwächen
Die Bayes’sche Methode ist also effizient, wenn perfekt gleichwertige Experimente bereits in der Vergangenheit durchgeführt wurden. Sie wird in verschiedenen Bereichen genutzt, z.B. bei der Entdeckung von Spam: die Kenntnis von wiederkehrenden Spam-Merkmalen ermöglicht die Errechnung der Wahrscheinlichkeit eines Spams bei Erscheinen bestimmter Wortkategorien.
So werden dank vergangener Experiment bestimmte Wörter als typisch für Spam identifiziert. Hier liegt der Hauptvorteil der Methode: keine festgesetzte Beobachtungsdauer, schnelle Ergebnisse.Es ist nicht nötig, die Größe einer zu beobachtenden Stichprobe festzulegen, kein minimaler Traffic ist für einen Test erforderlich: die Ergebnisse sind schnell zugänglich und können schon während des Tests eingesehen werden.
Wenn das so ist, warum kommt diese Zauberformel erst jetzt ins Gespräch?
Ganz einfach: Die Bayes’sche Methode ist sehr objektiv im Fall des Münzwurfs, aber zu subjektiv, wenn es um User Experience geht. Die Einbeziehung von vorherigen, vielleicht unter ganz anderen Umständen ermittelten Ergebnissen ist einfach eine schlechte Idee und sollte keinesfalls für A/B-Tests genutzt werden, weil eine der wichtigsten Grundlagen des A/B-Testing die genau gleichen Bedingungen sind, unter denen die Varianten verglichen werde.
Die Bayes’sche Methode leitet die Wahrscheinlichkeit eines Ereignisses von der Wahrscheinlichkeit vergangener Ereignisse ab. Allerdings kann diese Vorkenntnis bei A/B-Tests durch saisonbedingte oder andere externe Faktoren verfälscht sein.
Anders gesagt ist das Risiko, ein falsch positives Ergebnis zu erhalten, dadurch weitaus höher. Bei einem Spam ist das nicht so schlimm, für einen A/B-Test kann es aber problematisch sein.
Die Bayes’esche Methode ist außerdem weit komplizierter, weil sie auf Wahrscheinlichkeitsverteilung beruht, einem Konzept, das weitaus komplexer ist als ein einfacher Vertrauensindex.
Für A/B-Tests wird mit der Wahrscheinlichkeitsverteilung der Gewinn oder Verlust an Conversions gemessen. Die Verteilung wird so weit wie möglich vereinfacht, und in einem Intervall wie [-0,5%, +2%] ausgedrückt. Aber das hilft Marketingteams auch nicht wirklich bei der Ergebnisanalyse weiter (liegt das Ergebnis eher bei -0,5% oder bei 2%?). Außerdem ist dieses Intervall relativ willkürlich gewählt, ausgehend von einer Schwelle, ab der das statistische Gewicht unerheblich ist.
3 Die Vorteile der Frequentist-Methode
Deshalb wurde die Frequentist-Methode, die auch in der Wirtschaft und in der Medizin genutzt wird, von Anfang an für A/B-Tests gewählt. Diese Methode basiert allein auf den Daten des Tests, mit strikt identischen Bedingungen für die Varianten (daher wird diese Methode „data-driven“ genannt).
Nachteile hat auch diese Methode, und wir haben dem Thema bereits eine Serie von Artikeln über statistische Signifikanz gewidmet:
- Warum Statistik für A/B-Tests wichtig ist
- Statistik: Die Rolle von A/A-Tests
- Statistik: Wie viel Traffic brauche ich für A/B-Tests
Vor allem das Niveau des Traffic kann problematisch sein und bestimmte Testarten unmöglich machen. Außerdem ist die Zuverlässigkeit der Ergebnisse erst nach Testende gegeben. „Repeated Picking“ sollte auf jeden Fall vermieden werden, denn Zwischenergebnisse haben einfach keine Gültigkeit.
4 Welche Methode sollte genutzt werden?
Einer der weitreichendsten Vergleiche der beiden Methoden ist die Analyse des Statistikers Valen Johnson, zusammengefasst in den Proceedings der US-amerikanischen National Academy of Science*.
Die frequentistische Analyse basierte auf der Auswertung der im Experiment gesammelten Daten, um zu einem signifikanten Ergebnis zu gelangen. Die Bayes’sche Methode verglich zwei Hypothesen und schätzte die Wahrscheinlichkeit, dass eine von beiden korrekt ist, anhand von bestehenden Daten und bereits bekannten Informationen, ein. Johnson kam zu dem Schluss, dass die Schwelle der statistischen Signifikanz von normalerweise 95% bei Nutzung der Bayes’schen Methode unzureichend ist. Was heißt, dass seine Schlussfolgerung die Wahl der Frequentist-Methode durch A/B-Testing-Tools bestätigen.
Ist die Bayes’sche Methode also wertlos? Nein, sie hat zahlreiche Vorteile – wenn die richtigen Umstände gegeben sind. Bei A/B-Tests wird logischerweise der Frequentist-Ansatz vorrangig benutzt, weil er zuverlässigere und leichter zu analysierende Ergebnisse bringt, was die oben genannten Nachteile leicht wettmacht.
Allgemein gesehen wird die Debatte Frequentist vs. Bayes schnell sehr wissenschaftlich und ist relativ weit von den realen Anforderungen der Marketingteams entfernt. Es ist nicht wirklich so, dass eine Methode besser als die andere ist, man muss nur die Logik hinter beiden verstehen – oder sich von einem Experten in diesem Bereich beraten lassen.
* Valen E. Johnson, Revised Standards for Statistical Evidence, Proceedings of the National Academy of Sciences, Vol. 110, No. 48, 26 November 2013,