U06.4 – Konfidenzintervall, approximative Normalverteilung

 

Sei \left( {\Psi ,\mathcal{G},\mathcal{W}_Z } \right) der zu einer Bernoulli-Stichprobe Z = (X1, …, Xn) mit unbekannter Erfolgswahrscheinlichkeit \vartheta  \in \Theta : = \left[ {0,1} \right]gehörige statistische Raum (vgl. 1.4, Beispiel 1). Ferner sei \alpha  \in \left\langle {0,1} \right\rangle vorgegeben. Wie üblich bezeichne M das Stichprobenmittel.

a) Sei \varepsilon  = \frac{1} {{2\sqrt {n\alpha } }}.
Zeigen Sie, dass C gemäß C\left( Z \right) = \left\langle {M-\varepsilon ,M+\varepsilon } \right\rangle ein (1-α)-Konfidenzintervall für die unbekannte Erfolgswahrscheinlichkeit h ist.

b) Bekanntlich ist M bezüglich w_\vartheta approximativ normalverteilt mit Erwartungswert \vartheta und Varianz \frac{{\vartheta \left( {1-\vartheta } \right)}} {n} (W 5.6 oder V 2.5).
Sei \varepsilon ^\prime  : = \frac{1} {{2\sqrt n }}\Phi ^{-1} \left( {1-\frac{\alpha } {2}} \right) (\Phi ^{-1} ist die Umkehrfunktion der Verteilungsfunktion Φ von N(0,1)).
Zeigen Sie, dass C’ gemäß C^\prime  \left( Z \right) = \left\langle {M-\varepsilon ^\prime  ,M+\varepsilon ^\prime  } \right\rangle, ein approximatives (1-α)-Konfidenzintervall für die unbekannte Erfolgswahrscheinlichkeit ϑ ist.

c) Welche speziellen Intervalle erhält man für M = 0.8, α = 0.05, n = 100?
Hinweis: a) Ungleichung von Tschebyschev: W 4.8.2; verwenden Sie in a) und b) die
Abschätzung \vartheta \left( {1-\vartheta } \right) \leq \frac{1} {4} für alle \vartheta  \in \left[ {0,1} \right].

Lösung

\Theta  = \left[ {0,1} \right],\quad Z = \left( {X_1 , \ldots ,X_n } \right),\quad X_1 , \ldots ,X_n \quad i.i.d. \sim B\left( {1,\vartheta } \right),\quad M = \frac{1} {n}\left( {X_1 + \ldots +X_n } \right)

\alpha  \in \left\langle {0,1} \right\rangle

a)

Gegeben sind:

\varepsilon  = \frac{1} {{2\sqrt {n\alpha } }}

C\left( Z \right): = \left\langle {M-\varepsilon ,M+\varepsilon } \right\rangle \quad  \Rightarrow \quad M-\varepsilon  < C < M+\varepsilon

\Rightarrow \quad \left| {C-M} \right| < \varepsilon \quad  \Leftrightarrow \quad \left| {M-C} \right| < \varepsilon

Um die Behauptung zu zeigen stellen wir zunächst die Überdeckungswahrscheinlichkeit für Irrtumsbereich auf.

Mit \vartheta  \notin C folgt \left| {M-\vartheta } \right| \geq \varepsilon

Formel

Weiter mit Hilfe der Ungleichung von Tschebyschev: P\left( {\left| {X-E\left( X \right)} \right| > \varepsilon } \right) \leq \frac{{\operatorname{var} \left( X \right)}} {{\varepsilon ^2 }}

\ldots  \leq \frac{{\operatorname{var} _\vartheta  \left( M \right)}} {{\varepsilon ^2 }} = \frac{{\vartheta \left( {1-\vartheta } \right)}} {{n\varepsilon ^2 }} \leq \frac{1} {{4n\varepsilon ^2 }} = \alpha

Wie die Varianz des Stichprobenmittels bei einer Binomialverteilung zustande kommt wurde bereits in diesem Artikel gezeigt.
Die Anschließende Abschätzung folgt aus der Funktion im Zähler:

f\left( \vartheta  \right): = \vartheta \left( {1-\vartheta } \right);\quad 0 \leq \vartheta  \leq 1

Ihr Maximum liegt (wie sich leicht berechnen lässt) bei 1/4.

Damit folgt nun durch Umkehren der Behauptung:

\Rightarrow \quad w_\vartheta  \left( {C\left( Z \right) \mathrel\backepsilon  \vartheta } \right) \geq 1-\alpha

Mit den Werten aus c):

M = 0.8,\quad \alpha  = 0.05,\quad n = 100\quad  \Rightarrow \quad \varepsilon  = 0.22

C = \left] {0.58,1} \right]

b)

\varepsilon ^\prime  : = \frac{1} {{2\sqrt n }}\Phi ^{-1} \left( {1-\frac{\alpha } {2}} \right)

M ist für große n approximativ Normalverteilt:

N\left( {\vartheta ,\frac{{\vartheta \left( {1-\vartheta } \right)}} {n}} \right), \sigma \left( \vartheta  \right): = \sqrt {\frac{{\vartheta \left( {1-\vartheta } \right)}} {n}}

Wir zeigen nun, dass C^\prime  \left( Z \right) = \left\langle {M-\varepsilon ^\prime  ,M+\varepsilon ^\prime  } \right\rangle ein approximatives (1-α)-Konfidenzintervall für die unbekannte Erfolgswahrscheinlichkeit ϑ ist:

w_\vartheta  \left( {C^\prime  \left( Z \right) \mathrel\backepsilon  \vartheta } \right) = w_\vartheta  \left( {\left| {M-\vartheta } \right| \geq \varepsilon ^\prime  } \right) = w_\vartheta  \left( {\vartheta -\varepsilon ^\prime   < M < \vartheta +\varepsilon ^\prime  } \right)

\approx \Phi \left( {\frac{{\left( {\vartheta +\varepsilon ^\prime  } \right)-\vartheta }} {{\sigma \left( \vartheta  \right)}}} \right)-\Phi \left( {\frac{{\left( {\vartheta -\varepsilon ^\prime  } \right)-\vartheta }} {{\sigma \left( \vartheta  \right)}}} \right) = \Phi \left( {\frac{{\varepsilon ^\prime  }} {{\sigma \left( \vartheta  \right)}}} \right)-\Phi \left( {-\frac{{\varepsilon ^\prime  }} {{\sigma \left( \vartheta  \right)}}} \right) = 2\Phi \left( {\frac{{\varepsilon ^\prime  }} {{\sigma \left( \vartheta  \right)}}} \right)-1

mit\:\sigma \left( \vartheta  \right) = \sqrt {\frac{{\vartheta \left( {1-\vartheta } \right)}} {n}}  \leq \sqrt {\frac{1} {{4n}}}  = \frac{1} {{2\sqrt n }}

\Rightarrow \quad 2\Phi \left( {\frac{{\varepsilon ^\prime  }} {{\sigma \left( \vartheta  \right)}}} \right)-1 \geq 2\Phi \left( {\varepsilon ^\prime  2\sqrt n } \right)-1 = 2\left( {1-\frac{\alpha } {2}} \right)-1 = \underline{\underline {1-\alpha }}

Wegen: \varepsilon ^\prime  : = \frac{1} {{2\sqrt n }}\Phi ^{-1} \left( {1-\frac{\alpha } {2}} \right)\quad  \Leftrightarrow \quad 2\Phi \left( {\varepsilon ^\prime  2\sqrt n } \right)-1 = 2\left( {1-\frac{\alpha } {2}} \right)-1

Damit ist C^\prime  \left( Z \right) = \left\langle {M-\varepsilon ^\prime  ,M+\varepsilon ^\prime  } \right\rangle tatsächlich ein approximatives (1-α)-Konfidenzintervall für die unbekannte Erfolgswahrscheinlichkeit ϑ.

Mit den Werten aus c):

M = 0.8,\quad \alpha  = 0.05,\quad n = 100\quad  \Rightarrow \quad \varepsilon ^\prime   = 0.10

C^\prime   = \left\langle {0.70,0.90} \right\rangle

\mathcal{J}\mathcal{K}