Statistical Inference Showdown: Die Frequentisten gegen die Bayesianer

Inferenz

Statistische Inferenz ist ein sehr wichtiges Thema, das moderne Algorithmen für maschinelles Lernen und tiefes Lernen unterstützt. Dieser Artikel hilft Ihnen, sich mit den Konzepten und der Mathematik vertraut zu machen, aus denen die Schlussfolgerung besteht.

Stellen Sie sich vor, wir wollen ein paar Freunde mit einer unfairen Münze austricksen. Wir haben 10 Münzen und möchten beurteilen, ob eine davon unfair ist - was bedeutet, dass sie häufiger als Kopf als als Schwanz auftaucht oder umgekehrt.

Also nehmen wir jede Münze, werfen sie ein paar Mal - sagen wir 100 - und zeichnen die Ergebnisse auf. Die Sache ist, dass wir jetzt eine Teilmenge von Messungen aus einer wahren Verteilung (einer Stichprobe) für jede Münze haben. Wir haben den Zustand unserer Daumen berücksichtigt und sind zu dem Schluss gekommen, dass das Sammeln weiterer Daten sehr mühsam wäre.

Es ist ungewöhnlich, Parameter der wahren Verteilung zu kennen. Häufig möchten wir aus der Stichprobe wahre Populationsparameter ableiten.

Nun wollen wir die Wahrscheinlichkeit abschätzen, dass eine Münze auf Heads landet. Wir interessieren uns für den Stichprobenmittelwert .

Inzwischen haben Sie wahrscheinlich gedacht: "Zählen Sie einfach die Anzahl der Köpfe und dividieren Sie durch die Gesamtzahl der bereits durchgeführten Versuche!" Ja, dies ist der Weg, um eine unfaire Münze zu finden, aber wie könnten wir auf diese Formel kommen, wenn wir sie überhaupt nicht wüssten?

Frequentistische Folgerung

Denken Sie daran, dass Münzwürfe am besten mit der Bernoulli-Verteilung modelliert werden können, sodass wir sicher sind, dass sie unsere Daten gut darstellen. Die Wahrscheinlichkeitsmassenfunktion (PMF) für die Bernoulli-Verteilung sieht folgendermaßen aus:

x ist eine Zufallsvariable, die eine Beobachtung eines Münzwurfs darstellt (angenommen 1 für Heads und 0 für Tails) und p ist ein Parameter - Wahrscheinlichkeit von Heads. Wir werden so auf alle möglichen Parameter beziehen θ weiter . Diese Funktion gibt an, wie wahrscheinlich jeder Wert von x gemäß dem von uns gewählten Verteilungsgesetz ist.

Wenn x gleich 1 ist, erhalten wir f (1; p) = p, und wenn es Null ist, ist f (0; p) = 1-p. Die Bernoulli-Verteilung beantwortet also die Frage: „Wie wahrscheinlich ist es, dass wir einen Kopf mit einer Münze bekommen, die mit der Wahrscheinlichkeit p auf dem Kopf landet ? '. Tatsächlich ist es eines der einfachsten Beispiele für eine diskrete Wahrscheinlichkeitsverteilung.

Wir sind also daran interessiert, den Parameter p aus den Daten zu bestimmen . Ein häufiger Statistiker wird wahrscheinlich die Verwendung eines MLE-Verfahrens (Maximum Likelihood Estimation) vorschlagen. Diese Methode verfolgt den Ansatz der Maximierung der Wahrscheinlichkeit von Parametern angesichts des Datensatzes D :

Dies bedeutet, dass die Wahrscheinlichkeit als Wahrscheinlichkeit der Daten definiert ist, wenn Parameter des Modells angegeben werden. Um diese Wahrscheinlichkeit zu maximieren, müssen wir Parameter finden, die unserem Modell helfen, die Daten so genau wie möglich abzugleichen. Sieht es nicht nach Lernen aus ? Maximale Wahrscheinlichkeit ist eine der Methoden, mit denen überwachtes Lernen funktioniert.

Nehmen wir nun an, dass alle Beobachtungen, die wir machen, unabhängig sind. Dies bedeutet, dass die gemeinsame Wahrscheinlichkeit im obigen Ausdruck durch grundlegende Wahrscheinlichkeitsregeln zu einem Produkt vereinfacht werden kann:

Nun geht der Hauptteil: Wie maximieren wir eine Wahrscheinlichkeitsfunktion? Wir rufen den Kalkül um Hilfe, differenzieren die Wahrscheinlichkeitsfunktion in Bezug auf die Modellparameter θ , setzen sie auf 0 und lösen die Gleichung. Es gibt einen netten Trick, der die Differenzierung meistens viel einfacher macht - Logarithmen ändern nicht die Extrema der Funktion (Minimum und Maximum).

Die Schätzung der maximalen Wahrscheinlichkeit hat eine immense Bedeutung und fast jeder Algorithmus für maschinelles Lernen. Dies ist eine der beliebtesten Methoden, um einen Lernprozess mathematisch zu formulieren.

Und jetzt wenden wir das Gelernte an und spielen mit unseren Münzen. Wir haben n unabhängige Bernoulli-Versuche durchgeführt, um die Fairness unserer Münze zu bewerten. Somit können alle Wahrscheinlichkeiten multipliziert werden und die Wahrscheinlichkeitsfunktion sieht folgendermaßen aus:

Die Ableitung des obigen Ausdrucks zu nehmen, wird nicht schön sein. Wir müssen also die Log-Wahrscheinlichkeit finden:

Das sieht einfacher aus. Weiter zur Differenzierung

Hier teilen wir Ableitungen mit Standard d (f + g) = df + dg. Als nächstes verschieben wir die Konstanten heraus und differenzieren Logarithmen:

Der letzte Schritt mag wegen des Schildwechsels lustig erscheinen. Die Ursache ist, dass log (1-p) tatsächlich eine Zusammensetzung von zwei Funktionen ist und wir hier die Kettenregel verwenden müssen:

Voilà, wir sind mit der Log-Wahrscheinlichkeit fertig! Jetzt sind wir nahe daran, die Maximum-Likelihood-Statistik für den Mittelwert der Bernoulli-Verteilung zu finden. Der letzte Schritt ist die Lösung der Gleichung:

Multiplizieren Sie alles mit p (1-p) und erweitern Sie die Klammer

Die Bedingungen stornieren und neu anordnen:

Also, hier ist die Ableitung unsererintuitive Formel? Sie können jetzt mit der Bernoulli-Verteilung und ihrer MLE-Schätzung des Mittelwerts in der folgenden Visualisierung spielen

Herzlichen Glückwunsch zu Ihrer neuen großartigen Fähigkeit der Maximum Likelihood Estimation! Oder nur um Ihr vorhandenes Wissen aufzufrischen.

Bayesianische Folgerung

Denken Sie daran, dass es einen anderen Ansatz für die Wahrscheinlichkeit gibt. Die Bayes'sche Statistik hat ihre eigene Art, probabilistische Schlussfolgerungen zu ziehen. Wir wollen die Wahrscheinlichkeitsverteilung der Parameter THETA bei gegebener Stichprobe - P (THETA | D) finden . Aber wie können wir auf diese Wahrscheinlichkeit schließen? Der Satz von Bayes kommt zur Rettung:

  • P (θ) wird als vorherige Verteilung bezeichnet und beinhaltet unsere Überzeugung, welche Parameter sein könnten, bevor wir Daten gesehen haben. Die Fähigkeit, frühere Überzeugungen zu äußern, ist einer der Hauptunterschiede zwischen maximaler Wahrscheinlichkeit und Bayes'scher Folgerung. Dies ist jedoch auch der Hauptkritikpunkt für den Bayes'schen Ansatz. Wie geben wir die vorherige Verteilung an, wenn wir nichts über das interessierende Problem wissen? Was ist, wenn wir vorher schlecht wählen?
  • P (D | θ) ist eine Wahrscheinlichkeit, die wir in der Maximum Likelihood Estimation gefunden haben
  • P (D) wird als Beweis oder marginale Wahrscheinlichkeit bezeichnet

P (D) wird auch als Normalisierungskonstante bezeichnet, da es sicherstellt, dass die erhaltenen Ergebnisse eine gültige Wahrscheinlichkeitsverteilung sind. Wenn wir P (D) umschreiben als

Wir werden sehen, dass es dem Zähler im Bayes-Theorem ähnlich ist, aber die Summation geht über alle möglichen Parameter θ . Auf diese Weise erhalten wir zwei Dinge:

  • Die Ausgabe ist immer eine gültige Wahrscheinlichkeitsverteilung im Bereich von [0, 1].
  • Hauptschwierigkeiten beim Versuch, P (D) zu berechnen, da dies die Integration oder Summierung aller möglichen Parameter erfordert. Dies ist bei den meisten Problemen mit echten Wörtern unmöglich.

Aber macht die marginale Wahrscheinlichkeit P (D) alles Bayesianische unpraktisch? Die Antwort ist nicht ganz. In den meisten Fällen verwenden wir eine der beiden Optionen, um dieses Problem zu beheben.

Die erste besteht darin, P (D) irgendwie zu approximieren . Dies kann erreicht werden, indem verschiedene Stichprobenverfahren wie Importance Sampling oder Gibbs Sampling oder eine Technik namens Variational Inference verwendet werden (was ist übrigens ein cooler Name?).

Die zweite besteht darin, es vollständig aus der Gleichung herauszuholen. Lassen Sie uns diesen Ansatz genauer untersuchen. Was ist, wenn wir uns darauf konzentrieren, eine wahrscheinlichste Parameterkombination zu finden (die die bestmögliche ist)? Dieses Verfahren wird als Maximum A Posteriori-Schätzung (MAP) bezeichnet.

Die obige Gleichung bedeutet , dass wir finden wollen θ , für den Ausdruck in arg max nimmt seinen Maximalwert - das arg UMENT einer max imum. Das Wichtigste dabei ist, dass P (D) unabhängig von Parametern ist und von arg max ausgeschlossen werden kann :

Mit anderen Worten, P (D) ist in Bezug auf Modellparameter immer konstant und seine Ableitung ist gleich 1 .

Diese Tatsache ist so weit verbreitet, dass es üblich ist, den Bayes-Satz in dieser Form zu sehen:

Das verdrahtete unvollständige Unendlichkeitszeichen im obigen Ausdruck bedeutet "proportional zu" oder "gleich bis zu einer Konstanten".

Daher haben wir den rechenintensivsten Teil des MAP entfernt. Dies ist sinnvoll, da wir grundsätzlich alle möglichen Parameterwerte aus der Wahrscheinlichkeitsverteilung verworfen und nur den wahrscheinlichsten überflogen haben.

Eine Verbindung zwischen MLE und MAP

Und nun überlegen Sie, was passiert, wenn wir davon ausgehen, dass der Prior einheitlich ist (eine konstante Wahrscheinlichkeit).

Wir haben die Konstante C aus dem arg max herausbewegt, da dies das Ergebnis nicht wie bei den Beweisen beeinflusst. Eine Maximum-Likelihood-Schätzung sieht auf jeden Fall gleich aus! Am Ende ist die mathematische Kluft zwischen frequentistischer und Bayes'scher Folgerung nicht so groß.

Wir können die Brücke auch von der anderen Seite aus bauen und die Schätzung der maximalen Wahrscheinlichkeit durch eine Bayes'sche Brille betrachten. Insbesondere kann gezeigt werden, dass Bayes'sche Priors enge Verbindungen zu Regularisierungsbedingungen haben. Aber dieses Thema verdient einen anderen Beitrag (siehe diese SO-Frage und das ESLR-Buch für weitere Details).

Fazit

Diese Unterschiede mögen zunächst subtil erscheinen, geben aber zwei statistischen Schulen den Anfang. Frequentistische und Bayes'sche Ansätze unterscheiden sich nicht nur in der mathematischen Behandlung, sondern auch in den philosophischen Ansichten über grundlegende Konzepte in Statistiken.

Wenn Sie einen Bayes'schen Hut tragen, betrachten Sie Unbekannte als Wahrscheinlichkeitsverteilungen und die Daten als nicht zufällige feste Beobachtungen. Sie beziehen frühere Überzeugungen ein, um Rückschlüsse auf Ereignisse zu ziehen, die Sie beobachten.

Als Frequentist glauben Sie, dass es einen einzigen wahren Wert für die Unbekannten gibt, die wir suchen, und dass die Daten zufällig und unvollständig sind. Frequentist wählt zufällig Daten aus unbekannter Population aus und zieht anhand dieser Stichprobe Rückschlüsse auf wahre Werte unbekannter Parameter.

Am Ende haben Bayesianische und Frequentistische Ansätze ihre eigenen Stärken und Schwächen. Jeder hat die Werkzeuge, um fast jedes Problem zu lösen, das der andere kann. Wie verschiedene Programmiersprachen sollten sie als Werkzeuge gleicher Stärke betrachtet werden, die für ein bestimmtes Problem besser geeignet sind und das andere Problem nicht erfüllen. Verwenden Sie beide, verwenden Sie sie mit Bedacht und geraten Sie nicht in die Wut eines heiligen Krieges zwischen zwei Lagern von Statistikern!

Etwas gelernt? Drücke den ? zu sagen "danke!" und helfen Sie anderen, diesen Artikel zu finden.