U03.3 – Erwartungswert und (Ko-)Varianz einer Zufallsvariable

 

Sei \left( {X_1 , \ldots ,X_n } \right) eine einfache reellwertige Stichprobe vom Umfang n und sei Fn die
zugehörige empirische Verteilungsfunktion. Seien x,y \in \mathbb{R} beliebig.

a) Bestimmen Sie den Erwartungswert und die Varianz der Zufallsvariablen F_n \left( x \right).
b) Bestimmen Sie die Kovarianz der Zufallsvariablen F_n \left( x \right) und F_n \left( y \right) wobei x < y.

Hinweis:
Für i=1,...,n sei \eta _i \left( x \right) (bzw. \eta _i \left( y \right)) die Indikatorfunktion des Ereignisses \left\{ {X_i  \leq x} \right\} (bzw. \left\{ {X_i  \leq y} \right\}). Dann ist nF_n \left( x \right) = \eta _1 \left( x \right)+ \ldots +\eta _n \left( x \right). Welche Verteilung hat folglich nFn(x)?
Mit Hilfe der analogen Beziehung nF_n \left( y \right) = \eta _1 \left( y \right)+ \ldots +\eta _n \left( y \right) bilde man das Produkt
Fn(x)Fn(y) und gehe dann zum Erwartungswert über.

Lösung

\left( {X_1 , \ldots ,X_n } \right): eine einfache reellwertige Stichprobe

F\left( x \right): Verteilungsfunktion von X1

F_n \left( x \right): empirische Verteilungsfunktion

x,y \in \mathbb{R} beliebig fest mit x < y

a)

Es gilt hier:

F_n \left( x \right) = \frac{1} {n} \cdot  \sum\limits_{i = 1}^n {\mathbb{I}_{\left\{ {X_i  \leq x} \right\}} }

\Rightarrow \quad nF_n \left( x \right) =  \sum\limits_{i = 1}^n {\mathbb{I}_{\left\{ {X_i  \leq x} \right\}} }  \sim B\left( {n,F\left( x \right)} \right)

Erinnerung: Für X \sim B\left( {n,p} \right) gilt: E\left( X \right) = np , \operatorname{var} \left( X \right) = np\left( {1-p} \right)

Demnach gilt entsprechend:

E\left( {nF_n \left( x \right)} \right) = np = nF\left( x \right)\quad  \Rightarrow \quad E\left( {F_n \left( x \right)} \right) = F\left( x \right)

\operatorname{var} \left( {nF_n \left( x \right)} \right) = np\left( {1-p} \right) = nF\left( x \right)\left( {1-F\left( x \right)} \right)

Erinnerung: \operatorname{var} \left( {aX+b} \right) = a^2 \operatorname{var} \left( X \right)

Damit folgt:

\operatorname{var} \left( {nF_n \left( x \right)} \right) = n^2 \operatorname{var} \left( {F_n \left( x \right)} \right) = nF\left( x \right)\left( {1-F\left( x \right)} \right)

\Rightarrow \quad \operatorname{var} \left( {F_n \left( x \right)} \right) = \frac{{F\left( x \right)\left( {1-F\left( x \right)} \right)}} {n}

b)

Erinnerung: Es gilt: \operatorname{cov} \left( {X,Y} \right): = E\left( {XY} \right)-E\left( X \right)E\left( Y \right)

\Rightarrow \quad \operatorname{cov} \left( {F_n \left( x \right),F_n \left( y \right)} \right) = E\left( {F_n \left( x \right)F_n \left( y \right)} \right)-E\left( {F_n \left( x \right)} \right)E\left( {F_n \left( y \right)} \right)

Für die empirische Verteilungsfunktion gilt (wie: hier beschrieben):

\forall x \in \mathbb{R}:F_n \left( x \right) = \frac{1} {n} \cdot  \sum\limits_{i = 1}^n {\mathbb{I}_{\left\{ {X_i  \leq x} \right\}} }

und somit:

nF_n \left( x \right)nF_n \left( y \right) = \left( {\sum\limits_{k = 1}^n {\mathbb{I}_{\left\{ {X_k  \leq x} \right\}} } } \right) \cdot  \left( {\sum\limits_{l = 1}^n {\mathbb{I}_{\left\{ {X_l  \leq y} \right\}} } } \right)

= \sum\limits_{k,l = 1}^n {\mathbb{I}_{\left\{ {X_k  \leq x} \right\}} } \mathbb{I}_{\left\{ {X_l  \leq y} \right\}}

= \sum\limits_{k = 1}^n {\mathbb{I}_{\left\{ {X_k  \leq x} \right\}} } +\sum\limits_{    k,l = 1 , k \ne l }  ^n {\mathbb{I}_{\left\{ {X_k  \leq x} \right\}} } \mathbb{I}_{\left\{ {X_l  \leq y} \right\}}

= nF\left( x \right)+\left( {n^2 -n} \right)F\left( x \right)F\left( y \right)

Wie in Aufgabe a) gilt hier:

E\left( {F_n \left( x \right)} \right) = F\left( x \right)

\Rightarrow \quad n^2 E\left( {F_n \left( x \right)F_n \left( y \right)} \right) = nF\left( x \right)nF\left( y \right)

\Rightarrow \quad n^2 E\left( {F_n \left( x \right)F_n \left( y \right)} \right) = nF\left( x \right)+\left( {n^2 -n} \right)F\left( x \right)F\left( y \right)

\Rightarrow \quad E\left( {F_n \left( x \right)F_n \left( y \right)} \right) = \frac{{F\left( x \right)}} {n}+\frac{{n-1}} {n}F\left( x \right)F\left( y \right)

\Rightarrow \quad \operatorname{cov} \left( {F_n \left( x \right),F_n \left( y \right)} \right) = \frac{{F\left( x \right)}} {n}+\frac{{n-1}} {n}F\left( x \right)F\left( y \right)-F\left( x \right)F\left( y \right)

= \frac{{F_n \left( x \right)-F\left( x \right)F\left( y \right)}} {n} = \underline{\underline {\frac{{F\left( x \right)\left( {1-F\left( y \right)} \right)}} {n}}}

\mathcal{J}\mathcal{K}