U02.5 – Statistische Räume

 

Statistischer Raum

Ein statistischer Raum ist ein Tripel: \left( {\Psi ,\mathcal{G},\mathcal{W}} \right)
Dabei bezeichnet man \left( {\Psi ,\mathcal{G}} \right) als den Ereignisraum oder Stichprobenraum.

\Psi:

Die Menge der möglichen Ergebnisse / Messwerte / Beobachtungswerte
Eine Zufallsvariable (ZV) heißt \Psi- wertig, wenn sie (nur) Werte aus \Psi annimmt.

\mathcal{G}:

Die σ-Algebra zu \Psi
Im diskreten Fall: \mathcal{P}\left( \Psi  \right) (Potenzmenge)
Im stetigen Fall: \mathcal{B}\left( \Psi  \right) (Borellmenge)

\mathcal{W}:

Eine Menge von Verteilungen / Wahrscheinlichkeitsmaßen

Z.B. Mult\left( {n,r,\vec p} \right), B\left( {n,p} \right), Hyp\left( {n,w,m} \right), N\left( {\mu ,\sigma ^2 } \right)

Häufig kommt \mathcal{W} in parametrisierter Form vor:

\mathcal{W} = \left\{ {w_\vartheta  :\vartheta  \in \Theta } \right\}

Z.B.: \mathcal{W}_x  = \left\{ {B\left( {100,p} \right)|p \in \underbrace {\left[ {0,1} \right]}_\Theta } \right\}

\Theta: Parametermenge / Parameterbereich

Spezielle statistische Räume:

Ein statistischer Raum heißt:

  • parametrisch, wenn gilt: \exists d \in \mathbb{N}:\Theta  \subset \mathbb{R}^d
  • diskret, wenn \Psi höchstens abzählbar und \mathcal{G} = \mathcal{P}\left( \Psi  \right)
  • stetig, wenn gilt: \exists n \in \mathbb{N}, so dass \Psi eine Borelsche Teilmenge des \mathbb{R}^n ist und \mathcal{G} die σ-Algebra der Borelschen Teilmengen von \Psi ist und wenn w_\vartheta für jedes \vartheta  \in \Theta stetig ist.
  • Standardraum, wenn \left( {\Psi ,\mathcal{G},\mathcal{W}} \right) diskret oder stetig ist.

Likelihood(funktion)

Mit der sog. Likelihood(funktion) f_\vartheta bezeichnet man (im diskreten Fall) die Zähldichte / Massefunktion / Wahrscheinlichkeitsfunktion bzw. (im stetigen Fall) die Lebesguedichte von w_\vartheta.
Entsprechend lautet zu \mathcal{W}_x  = \left\{ {B\left( {100,p} \right)|p \in \underbrace {\left[ {0,1} \right]}_\Theta } \right\} die Likelihood:

f_p \left( x \right) = \left( {\begin{array}{*{20}c}    {100}  \\    x  \\   \end{array} } \right) \cdot  p^x  \cdot  \left( {1-p} \right)^{100-x}

Es gilt \forall B \in \mathcal{G}\quad  \wedge \quad \forall \vartheta  \in \Theta \quad :\quad w_\vartheta  \left( B \right) = \int\limits_B {f_\vartheta  dv}

wobei v das Zählmaß bzw. das Lebesguemaß ist.

Aufgaben:

1) Eine (eventuell unfaire) Münze mit unbekannter Wahrscheinlichkeit p für „Zahl“ wird 100-mal geworfen. X sei die Häufigkeit des Auftretens von „Zahl“

2) Ein Teich enthält eine unbekannte Zahl N von Fischen. Es werden W=50 Fische gefangen, mit einem weißen Fleck markiert und wieder ausgesetzt. Man wartet eine Weile, dann werden in einem zweiten Fischzug n=20 Fische gefangen und die Zahl Z der markierten Fische in diesem zweiten Fischzug ermittelt.

3) Der Diktator eines Schurkenstaates verfügt über N Panzer, die von 1 bis N durchnumeriert sind, wobei jedem Panzer entgegenkommenderweise seine Nummer aufgemalt wurde. Die alliierten Gegner des Diktators wollen Aufschluss über die ihnen unbekannte Zahl N erhalten. Zu diesem Zweck schießen sie n=8 Panzer ab und notieren deren Nummern.

4) entfällt

5) 1000 rein zufällig ausgewählte Wahlberechtigte (repräsentative Stichprobe) werden nach ihrer Einstellung gegenüber 5 Parteien P1, … , P5 befragt. Registriert wird der Zählvektor N = (N0,N1,N2,N3,N4,N5), wobei für i=1, … ,5 Ni = Anzahl der Anhänger von Pi, N0 = Anzahl der Befragten ohne Meinung.

6) X1, … , X12 seien die Reaktionszeiten von 12 Personen nach Einnahme einer gewissen Menge Alkohol, Y1, … , Y12 die Reaktionszeiten von weiteren 12 Personen, die keinen Alkohol zu sich genommen haben. Dabei seien X1, … ,X12,Y1, … ,Y12 unabhängig, X1, … ,X12 identisch verteilt mit (unbekannter) stetiger Verteilung QX, Y1, … ,Y12 identisch verteilt mit (unbekannter) stetiger Verteilung QY.

Lösungen

1)

Eine (eventuell unfaire) Münze mit unbekannter Wahrscheinlichkeit p für „Zahl“ wird 100-mal geworfen. X sei die Häufigkeit des Auftretens von „Zahl“

Daraus lässt sich nun aufstellen:

P\left( {Zahl} \right) = p (unbekannt)

X = H\ddot aufigkeit\:von\:Zahl

Menge der möglichen Ergebnisse:

\Psi  = \left\{ {0,1, \ldots ,100} \right\}\qquad \left( { \Rightarrow \quad diskret\quad  \Rightarrow \quad Standardraum} \right)

wobei X \in \Psi.

Da \Psi (die Menge der möglichen Ergebnisse) diskret ist, bekommen wir: \mathcal{G} = \mathcal{P}\left( \Psi  \right)

Da es sich bei dem Versuch um einen Münzwurf, also einen Versuch mit zwei möglichen Ausgängen handelt, nutzen wir als \mathcal{W}_x (Wahrscheinlichkeitsmaß / Verteilung von X) die Binomialverteilung B\left( {n,p} \right):

\mathcal{W}_x  = \left\{ {B\left( {100,p} \right)|p \in \underbrace {\left[ {0,1} \right]}_\Theta } \right\}\qquad \left( { \Rightarrow \quad parametrisch} \right)

Der Parameterbereich \Theta erstreckt sich hierbei aufgrund der unbekannten Wahrscheinlichkeit von 0 bis 1.

Damit handelt es sich also um einen diskreten parametrischen Standardraum.

Die Likelihood(funktion) / Wahrscheinlichkeitsfunktion lautet hierbei:

f_p \left( x \right) = \left( {\begin{array}{*{20}c}    {100}  \\    x  \\   \end{array} } \right) \cdot  p^x  \cdot  \left( {1-p} \right)^{100-x}

2)

Ein Teich enthält eine unbekannte Zahl N von Fischen. Es werden W=50 Fische gefangen, mit einem weißen Fleck markiert und wieder ausgesetzt. Man wartet eine Weile, dann werden in einem zweiten Fischzug n=20 Fische gefangen und die Zahl Z der markierten Fische in diesem zweiten Fischzug ermittelt.

Z = Anzahl der markierten Fische im 2. Fischzug

\Psi  = \left\{ {0,1, \ldots ,20} \right\},\quad \mathcal{G} = \mathcal{P}\left( \Psi  \right)\qquad \left( { \Rightarrow \quad diskret\quad  \Rightarrow \quad Standardraum} \right)

wobei Z \in \Psi.

Das Modell entspricht dem Ziehen von Kugel aus einer Urne mit N Kugel, von denen 50 weiß sind:

\mathcal{W}_x  = \left\{ {Hyp\left( {20,50,N} \right)|N \geq 50} \right\}\qquad \left( { \Rightarrow \quad parametrisch} \right)

Damit handelt es sich also auch hierbei um einen diskreten parametrischen Standardraum.

3)

Der Diktator eines Schurkenstaates verfügt über N Panzer, die von 1 bis N durchnumeriert sind, wobei jedem Panzer entgegenkommenderweise seine Nummer aufgemalt wurde. Die alliierten Gegner des Diktators wollen Aufschluss über die ihnen unbekannte Zahl N erhalten. Zu diesem Zweck schießen sie n=8 Panzer ab und notieren deren Nummern.

In diesem Fall ist \Psi nicht eine Menge die wie in den vorherigen Aufgaben aus einzelnen Elementen besteht, sondern eine Menge aus 8-elementigen Teilmengen:

\Psi  = \left\{ {M|M \subset \mathbb{N},\quad \left| M \right| = 8} \right\}\quad bzw.

\Psi  = \left\{ {M|M \subset \left\{ {1, \ldots ,N} \right\},\quad \left| M \right| = 8} \right\}

\mathcal{G} = \mathcal{P}\left( \Psi  \right)

\Theta  = \left\{ {N \in \mathbb{N}|N \geq 8} \right\}

Für N \in \Theta :w_N  = Gleichverteilung (d.h. alle Ereignisse gleichwahrscheinlich) auf der Menge aller 8-elementigen Teilmengen von \left\{ {1, \ldots ,N} \right\}, also mit Likelihood:

f_N \left( M \right) = \left\{ {\begin{array}{*{20}c}    {\frac{1} {{^{\left( {\begin{array}{*{20}c}    N  \\    8  \\   \end{array} } \right)} }}:} & {M \subset \left\{ {1, \ldots ,N} \right\}}  \\    {0\quad :} & {sonst}  \\   \end{array} } \right. mit M \in \Psi ,\quad N \in \Theta

Es handelt sich hier also um einen diskreten Standardraum.

Zur Erklärung der Likelihood (Bsp.: Urne):

In einer Urne befinden sich 4 Kugeln mit den Zahlen 1 – 4.

  • Die Anzahl der möglichen Ergebnisse beim Ziehen von 4 Kugeln beträgt \left( {\begin{array}{*{20}c}    4  \\    4  \\   \end{array} } \right) = 1, nämlich \left\{ {\left( {1,2,3,4} \right)} \right\}. Demnach hat dieses Ereignis die Wahrscheinlichkeit 1.
  • Die Anzahl der möglichen Ergebnisse beim Ziehen von 3 Kugeln beträgt \left( {\begin{array}{*{20}c}    4  \\    3  \\   \end{array} } \right) = 4, nämlich \left\{ {\left( {1,2,3} \right),\left( {1,2,4} \right),\left( {1,3,4} \right),\left( {2,3,4} \right)} \right\}. Demnach hat jedes mögliche Ergebnis die Wahrscheinlichkeit:

    \frac{1} {{^{\left( {\begin{array}{*{20}c}    4  \\    3  \\   \end{array} } \right)} }} = \frac{1} {4}.

  • Die Anzahl der möglichen Ergebnisse beim Ziehen von 2 Kugeln beträgt \left( {\begin{array}{*{20}c}    4  \\    2  \\   \end{array} } \right) = 6, nämlich \left\{ {\left( {1,2} \right),\left( {1,3} \right),\left( {1,4} \right),\left( {2,3} \right),\left( {2,4} \right),\left( {3,4} \right)} \right\}. Demnach hat jedes mögliche Ergebnis die Wahrscheinlichkeit:

    \frac{1} {{^{\left( {\begin{array}{*{20}c}    4  \\    2  \\   \end{array} } \right)} }} = \frac{1} {6}.

  • Bei den Panzern gilt nun, dass 8 Kugeln / Panzer aus N gezogen / getroffen werden. Die Anzahl der möglichen Ergebnisse liegt dann bei \left( {\begin{array}{*{20}c}    N  \\    8  \\   \end{array} } \right) und die Wahrscheinlichkeit für jedes Ergebnis beträgt:

    \frac{1} {{^{\left( {\begin{array}{*{20}c}    N  \\    8  \\   \end{array} } \right)} }}

5)

1000 rein zufällig ausgewählte Wahlberechtigte (repräsentative Stichprobe) werden nach ihrer Einstellung gegenüber 5 Parteien P1, … , P5 befragt. Registriert wird der Zählvektor N = (N0,N1,N2,N3,N4,N5), wobei für i=1, … ,5 , Ni = Anzahl der Anhänger von Pi, N0 = Anzahl der Befragten ohne Meinung.

Hier gilt das gleiche Prinzip wie in Aufgabe 1, allerdings diesmal im Mehrdimensionalen.

Wir haben einen gegeben Zählvektor:

\vec N = \left( {N_0 ,N_1 ,N_2 ,N_3 ,N_4 ,N_5 } \right)

Der zugehörige Wahrscheinlichkeitsvektor lautet:

\vec p = \left( {p_0 ,p_1 ,p_2 ,p_3 ,p_4 ,p_5 } \right)

Im Übrigen handelt es sich bei dem Modell um eine Multinomialverteilung:

Mult\left( {1000,6,\vec p} \right)

Es gilt:

\Psi  = T_{n,r}  = T_{1000,6}  = \left\{ {\left( {n_0 ,n_1 ,n_2 ,n_3 ,n_4 ,n_5 } \right) \in \mathbb{N}_0^6 |n_0 + \ldots +n_5  = 1000} \right\}\qquad \left( { \Rightarrow \quad diskret\quad  \Rightarrow \quad Standardraum} \right)

\mathcal{G} = \mathcal{P}\left( \Psi  \right)

\mathcal{W}_N  = \left\{ {Mult\left( {1000,6,\vec p} \right)|\vec p \in \Theta } \right\}\qquad \left( { \Rightarrow \quad parametrisch} \right)

\Theta  = \left\{ {\vec p = \left( {p_0 ,p_1 ,p_2 ,p_3 ,p_4 ,p_5 } \right)|p_i  \geq {\text{0}}{\text{,}}\quad p_0 + \ldots +p_5  = 1} \right\}

Damit handelt es sich hier also wieder um einen diskreten parametrischen Standardraum.

6)

X1, … , X12 seien die Reaktionszeiten von 12 Personen nach Einnahme einer gewissen Menge Alkohol, Y1, … , Y12 die Reaktionszeiten von weiteren 12 Personen, die keinen Alkohol zu sich genommen haben. Dabei seien X1, … ,X12,Y1, … ,Y12 unabhängig, X1, … ,X12 identisch verteilt mit (unbekannter) stetiger Verteilung QX, Y1, … ,Y12 identisch verteilt mit (unbekannter) stetiger Verteilung QY.

Der Beobachtungswert(vektor) besitzt somit 24 stetig verteilte Werte:

\Psi  = \mathbb{R}_+^{24} \quad ,\quad \mathcal{G} = \mathcal{B}\left( {\mathbb{R}_+ } \right)^{ \otimes 24}

\Psi  \mathrel\backepsilon  N = \left( {X_1 , \ldots ,X_{12} ,Y_1 , \ldots ,Y_{12} } \right)

\Theta  = \left\{ {\left( {Q_x ,Q_y } \right)|Q_x ,Q_y \:W-Vert.\:auf\:\left( {\mathbb{R}_+ ,\mathcal{B}\left( {\mathbb{R}_+ } \right)} \right)} \right\}

\mathcal{W}_z  = \left\{ {Q_x ^{ \otimes 12}  \otimes Q_y ^{ \otimes 12} |\vartheta \left( {Q_x ,Q_y } \right) \in \Theta } \right\}

Es handelt sich hier zwar um einen stetigen Standardraum, jedoch ist er nicht parametrisch, da \left( {Q_x ,Q_y } \right) nicht Teilmenge eines endlichen param. Vektorraumes ist.

Hinweise zur Produktbildung:

\left( {\Omega _1 ,\mathcal{A}_1 ,P_1 } \right) \otimes \left( {\Omega _2 ,\mathcal{A}_2 ,P_2 } \right) \otimes  \ldots  \otimes \left( {\Omega _n ,\mathcal{A}_n ,P_n } \right) = \left( {\Omega ,\mathcal{A},P} \right)

\Omega  = \Omega _1  \times  \ldots  \times \Omega _n

\mathcal{A} = \mathcal{A}_1  \otimes  \ldots  \otimes \mathcal{A}_n \quad  = \sigma \left( {\left\{ {A_1  \times  \ldots  \times A_n |A_1  \in \mathcal{A}_1 , \ldots ,A_n  \in \mathcal{A}_n } \right\}} \right)

P = P_1  \otimes  \ldots  \otimes P_n

P\left( {A_1  \times  \ldots  \times A_n } \right) = P_1 \left( {A_1 } \right) \cdot   \ldots  \cdot  P_n \left( {A_n } \right)

\mathcal{J}\mathcal{K}