next up previous contents
Nächste Seite: Bayes-Schätzer Aufwärts: Methoden zur Gewinnung von Vorherige Seite: Momenten-Methode   Inhalt


Maximum-Likelihood-Schätzer

Wir betrachten hier nur die beiden (grundlegenden) Fälle, dass die Stichprobenvariablen $ X_1,\ldots,X_n$ entweder diskret oder absolutstetig sind. D.h., für jedes % latex2html id marker 26564
$ \theta\in\Theta$ gelte entweder Dabei wird bei der Maximum-Likelihood-Methode der Parametervektor $ \theta$ so gewählt, dass Die Maximum-Likelihood-Methode wurde bereits im Jahre 1821 von Carl Friedrich Gauss (1777-1855) erwähnt. Sir Ronald Aylmer Fisher (1890-1962) hat diese Methode dann im Jahre 1922 wiederentdeckt und mit der Untersuchung ihrer Eigenschaften begonnen.
Definition
$ \;$ Die Abbildung % latex2html id marker 26597
$ L:\mathbb{R}^n\times\Theta\to[0,\infty)$ sei durch die folgende Vorschrift gegeben. Für jeden Vektor $ (x_1,\ldots,x_n)\in \mathbb{R}^n$ heißt die Abbildung $ \theta\to L(x_1,\ldots,x_n;\theta)$, die den Parameterraum % latex2html id marker 26611
$ \Theta$ nach $ [0,\infty)$ abbildet, die Likelihood-Funktion der Stichprobe $ (x_1,\ldots,x_n)$.
Die Idee der Maximum-Likelihood-Methode besteht nun darin, für jede (konkrete) Stichprobe $ (x_1,\ldots,x_n)$ einen Parametervektor % latex2html id marker 26619
$ \theta\in\Theta$ zu bestimmen, so dass der Wert $ L(x_1,\ldots,x_n;\theta)$ der Likelihood-Funktion möglichst groß wird. Dies führt zu der folgenden Begriffsbildung.
Definition
$ \;$ Sei % latex2html id marker 26630
$ \,\widehat\theta:\mathbb{R}^n\to\Theta\subset\mathbb{R}^m$ eine Stichprobenfunktion mit

% latex2html id marker 26632
$\displaystyle L(x_1,\ldots,x_n;\theta)\le
 L(x_1,\...
...ots,x_n))\,,\qquad\forall
 (x_1,\ldots,x_n)\in\mathbb{R}^n,\;\theta\in\Theta\,.$ (14)

Der Zufallsvektor $ \,\widehat\theta(X_1,\ldots,X_n)$ wird dann Maximum-Likelihood-Schätzer für $ \theta$ (bzw. kurz: ML-Schätzer) genannt.
Beachte
 


Beispiele
 
  1. $ \;$ Wer war vermutlich der Absender? 
    • Eine Warenlieferung eines unbekannten Herstellers bestehe aus 12 Exemplaren eines Artikels.
    • Dabei sei festgestellt worden, dass eines der 12 Exemplare Ausschuss ist.
    • Es sei bekannt, dass nur drei potentiell mögliche Hersteller in Frage kommen und dass deren Lieferungen erfahrungsgemäß jeweils einen Ausschussanteil von $ \theta_1=0,05$, $ \theta_2=0,10$ bzw. $ \theta_3=0,15$ aufweisen.
    • Frage: Welcher der drei Hersteller war vermutlich der Absender der Warenlieferung?
    • Modell: Betrachten die Stichprobenvariablen $ X_1,\ldots,X_{12}$ mit

      $\displaystyle X_i(\omega)=\left\{\begin{array}{ll} 1\,, & \mbox{falls das $i$-t...
...ar der Lieferung Ausschuss ist,}\\
0\,, & \mbox{sonst}
\end{array}\right.
$

      und die Familie der drei Bernoulli-Verteilungen $ \{$Bin $ (1,\theta_1),$Bin $ (1,\theta_2),$Bin $ (1,\theta_3)\}$, d.h. $ m=1$ und % latex2html id marker 26674
$ \Theta=\{\theta_1,\theta_2,\theta_3\}$.
    • Lösung: Die Stichprobenfunktion

      $\displaystyle \,\widehat\theta:\{0,1\}^{12}\to\{\theta_1,\theta_2,\theta_3\}
$

      wird so gewählt, dass für jeden Vektor $ (x_1,\ldots,x_{12})\in\{0,1\}^{12}$ mit $ \char93 \{i:x_i=1\}=1$ die Wahrscheinlichkeit

      $\displaystyle P_\theta((X_1,\ldots,X_{12})=(x_1,\ldots,x_{12}))=\theta(1-\theta)^{11}
$

      maximal ist.
    • Es gilt


      $ \theta$ $ P_\theta((X_1,\ldots,X_{12})=(x_1,\ldots,x_{12}))$
      $ 0,05$ $ 0,028$
      $ 0,10$ $ 0,031$
      $ 0,15$ $ 0,025$



    • Das Maximum $ 0,031$ steht in der zweiten Zeile dieser Tabelle.
    • Also ist $ \,\widehat\theta(x_1,\ldots,x_{12})=\theta_2$ für jeden Vektor $ (x_1,\ldots,x_{12})\in\{0,1\}^{12}$ mit $ \char93 \{i:x_i=1\}=1$, d.h., der Hersteller mit dem Ausschussanteil $ \theta_2=0.10$ war vermutlich der Absender der Lieferung.
  2. Bernoulli-verteilte Stichprobenvariablen (Fortsetzung) 
    • Betrachten die Familie % latex2html id marker 26719
$ \{P_\theta,\,\theta\in\Theta\}=\{$Bin $ (1,p),\,p\in[0,1]\}$ der Bernoulli-Verteilungen.
    • Dann gilt

      $\displaystyle p(x;p)=\left\{\begin{array}{ll}
p^x(1-p)^{1-x}\,,&\mbox{falls $x\in\{0,1\}$,}\\
0\,, & \mbox{sonst}
\end{array}\right.
$

    • Die Likelihood-Funktion $ L$ ist also gegeben durch

      $\displaystyle L(x_1,\ldots,x_n;p)=\left\{\begin{array}{ll}
\prod\limits _{i=1}...
...$(x_1,\ldots,x_n)\in\{0,1\}^n$,}\\
0\,, & \mbox{sonst}
\end{array}\right.
$

    • Falls $ x_1=\ldots=x_n=0$ bzw. $ x_1=\ldots=x_n=1$, dann sieht man leicht, dass die Abbildung $ p\to L(x_1,\ldots,x_n;p)$ an der Stelle $ p=0$ bzw. $ p=1$ ein (eindeutig bestimmtes) Maximum hat.
    • Sei nun $ (x_1,\ldots,x_n)\in\{0,1\}^n$ mit $ 0<\sum\limits _{i=1}^n x_i<n$. Dann ist

      $\displaystyle p\to
\log L(x_1,\ldots,x_n;p)=\Bigl(\sum\limits _{i=1}^n
x_i\Bigr)\log p+\Bigl(n-\sum\limits _{i=1}^n x_i\Bigr)\log
(1-p)
$

      eine stetige Funktion im Intervall $ (0,1)$, und es gilt

      $\displaystyle \lim\limits _{p\to 0}\log L(x_1,\ldots,x_n;p)=-\infty$   bzw.$\displaystyle \qquad
\lim\limits _{p\to 1}\log L(x_1,\ldots,x_n;p)=-\infty\,.
$

    • Die Abbildung $ p\to\log L(x_1,\ldots,x_n;p)$ hat also ein Maximum im Intervall $ (0,1)$.
    • Durch Differenzieren nach $ p$ ergibt sich

      $\displaystyle \frac{\partial\log L(x_1,\ldots,x_n;p)}{\partial p}=
\Bigl(\sum\...
...
x_i\Bigr)\frac{1}{p}-\Bigl(n-\sum\limits _{i=1}^n
x_i\Bigr)\frac{1}{1-p}\;.
$

    • Weil die Gleichung

      $\displaystyle \Bigl(\sum\limits _{i=1}^n
x_i\Bigr)\frac{1}{p}-\Bigl(n-\sum\limits _{i=1}^n
x_i\Bigr)\frac{1}{1-p}=0
$

      die (eindeutig bestimmte) Lösung

      $\displaystyle \,\widehat p(x_1,\ldots,x_n)=\frac{1}{n}\sum\limits _{i=1}^n
x_i\qquad \Bigl(=\overline x_n\Bigr)
$

      hat, nimmt die Abbildung $ p\to\log L(x_1,\ldots,x_n;p)$ an der Stelle $ p=\overline x_n$ ihr Maximum an.
    • Also ist der Maximum-Likelihood-Schätzer für den Parameter $ p$ gegeben durch

      $\displaystyle \,\widehat p(X_1,\ldots,X_n)=\frac{1}{n}\sum\limits _{i=1}^n X_i
\qquad \Bigl(=\overline X_n\Bigr)\,.
$

    • Ein JAVA-Applet zur Visualisierung der Loglikelihood-Funktion $ \log L(x_1,\ldots,x_n;p)$ findet man beispielsweise auf der Internet-Seite:
      http://www.math.gatech.edu/~spruill/applets.html
  3. Binomialverteilte Stichprobenvariablen 
    • Für eine beliebige, jedoch vorgegebene (d.h. bekannte) natürliche Zahl $ n_0\ge 1$ betrachten wir nun die Familie % latex2html id marker 26776
$ \{P_\theta,\,\theta\in\Theta\}=\{$Bin $ (n_0,p),\,p\in[0,1]\}$ von Binomialerteilungen.
    • Dann gilt

      $\displaystyle p(x;p)=\left\{\begin{array}{ll} \displaystyle
{n_0\choose x} p^x...
...alls $x\in\{0,1,\ldots,n_0\}$,}\\
0\,, & \mbox{sonst.}
\end{array}\right.
$

    • Genauso wie in Beispiel 2 ergibt sich der Maximum-Likelihood-Schätzer

      $\displaystyle \,\widehat p(X_1,\ldots,X_n)=\frac{\overline X_n}{n_0}
$

      für den (unbekannten) Parameter $ p$.
  4. Poisson-verteilte Stichprobenvariablen 
    • Betrachten die Familie % latex2html id marker 26786
$ \{P_\theta,\,\theta\in\Theta\}=\{$Poi $ (\lambda),\,\lambda\ge 0\}$ der Poisson-Verteilungen.
    • Dann gilt

      $\displaystyle p(x;\lambda)=\left\{\begin{array}{ll}\displaystyle
\frac{\lambda...
...ox{falls $x\in\{0,1,\ldots\}$,}\\
0\,, & \mbox{sonst.}
\end{array}\right.
$

    • Auf die gleiche Weise wie in den Beispielen 2 und 3 ergibt sich der Maximum-Likelihood-Schätzer

      $\displaystyle \,\widehat \lambda(X_1,\ldots,X_n)=\overline X_n
$

      für den Parameter $ \lambda$.
  5. Normalverteilte Stichprobenvariablen 
    • Betrachten nun die Familie % latex2html id marker 26797
$ \{P_\theta,\,\theta\in\Theta\}=\{$N $ (\mu,\sigma^2),\,
\mu\in\mathbb{R},\sigma^2>0\}$ der Normalverteilungen.
    • Dann gilt

      $\displaystyle f(x;\mu,\sigma^2)= \frac{1}{\sqrt{2\pi}\sigma}
\exp \Bigl( -\frac{1}{2}\Bigl(\frac{x-\mu}{\sigma
}\Bigr)^{2}\Bigr)\,.
$

    • Die Likelihood-Funktion $ L$ ist somit gegeben durch

      $\displaystyle L(x_1,\ldots,x_n;\mu,\sigma^2)=\Bigl(\frac{1}{\sqrt{2\pi}\sigma}\...
...^n
\exp \Bigl( -\frac{1}{2\sigma^2}\sum\limits _{i=1}^n (x_i-\mu)^2\Bigr)\,.
$

    • Für die Loglikelihood-Funktion gilt

      $\displaystyle \log
L(x_1,\ldots,x_n;\mu,\sigma^2)=-n\log(\sqrt{2\pi}\sigma)
-\frac{1}{2\sigma^2}\sum\limits _{i=1}^n (x_i-\mu)^2\,.
$

    • Durch Differenzieren nach $ \mu$ ergibt sich

      $\displaystyle \frac{\partial \log
L(x_1,\ldots,x_n;\mu,\sigma^2)}{\partial\mu}...
...og
L(x_1,\ldots,x_n;\mu,\sigma^2)}{\partial^2\mu}=
-\frac{n}{\sigma^2}<0\,.
$

    • Für jedes (fest vorgegebene) $ \sigma^2>0$ nimmt also die Abbildung

      $\displaystyle \mu\to\log L(x_1,\ldots,x_n;\mu,\sigma^2)
$

      ihr Maximum an der Stelle $ \mu=\overline x_n$ an.
    • Es ist nun noch das Maximum der Abbildung

      $\displaystyle \sigma^2\to\log L(x_1,\ldots,x_n;\overline x_n,\sigma^2)$ (16)

      zu bestimmen.
    • Weil $ P(X_1=\ldots=X_n)=0$ gilt, können wir annehmen, dass nicht alle Stichprobenwerte $ x_1,\ldots,x_n$ gleich sind.
    • Beachte: Die Abbildung (16) ist stetig für alle $ \sigma^2>0$, und es gilt

      $\displaystyle \lim\limits _{\sigma^2\to 0}\log L(x_1,\ldots,x_n;\overline x_n,\sigma^2)
=-\infty$   bzw.$\displaystyle \qquad
\lim\limits _{\sigma^2\to\infty}\log L(x_1,\ldots,x_n;\overline x_n,\sigma^2)
=-\infty\,.
$

    • Die Abbildung (16) hat also ein Maximum im Intervall $ (0,\infty)$.
    • Durch Differenzieren nach $ \sigma^2$ ergibt sich

      $\displaystyle \frac{\partial \log
L(x_1,\ldots,x_n;\overline x_n,\sigma^2)}{\p...
...2\sigma^2}
+\frac{1}{2\sigma^4}\sum\limits _{i=1}^n (x_i-\overline x_n)^2\,.
$

    • Weil vorausgesetzt wird, dass nicht alle Stichprobenwerte $ x_1,\ldots,x_n$ gleich sind, gilt

      $\displaystyle \sum\limits _{i=1}^n (x_i-\overline x_n)^2>0\,.
$

    • Deshalb hat die Gleichung

      $\displaystyle -\frac{n}{2\,\widehat\sigma^2}
+\frac{1}{2\,\widehat\sigma^4}\sum\limits _{i=1}^n (x_i-\overline x_n)^2
= 0
$

      die (eindeutig bestimmte) Lösung

      $\displaystyle \,\widehat\sigma^2(x_1,\ldots,x_n)
=\frac{1}{n}\sum\limits _{i=1}^n(x_i-\overline
x_n)^2\,.
$

    • Hieraus ergeben sich die Maximum-Likelihood-Schätzer

      $\displaystyle \,\widehat\mu(X_1,\ldots,X_n)=\overline X_n\,,\qquad
\,\widehat\sigma^2(X_1,\ldots,X_n)
=\frac{1}{n}\sum\limits _{i=1}^n(X_i-\overline X_n)^2
$

      für die Parameter $ \mu$ und $ \sigma^2$.
    • Ein JAVA-Applet zur Visualisierung der Loglikelihood-Funktion $ \log L(x_1,\ldots,x_n;\mu,\sigma^2)$ und verschiedene (numerische) Algorithmen zur Berechnung von $ \widehat\mu(x_1,\ldots,x_n)$ bzw. $ \widehat\sigma^2(x_1,\ldots,x_n)$ findet man beispielsweise auf der Internet-Seite:
      http://stat.tamu.edu/~jhardin/applets/signed/optim.html
  6. Gleichverteilte Stichprobenvariablen 
    • Betrachten die Familie % latex2html id marker 26858
$ \{P_\theta,\,\theta\in\Theta\}=\{$U $ (0,b),\,b>0\}$ von Gleichverteilungen.
    • Dann gilt

      $\displaystyle f(x;b)=\left\{ \begin{array}{ll}\displaystyle
\frac{1}{b}\;, & \mbox{falls $0\le x\le b$,}\\  0\,, & \mbox{sonst.}
\end{array}\right.
$

    • Die Likelihood-Funktion $ L$ ist somit gegeben durch

      $\displaystyle L(x_1,\ldots,x_n;b)=\left\{ \begin{array}{ll}\displaystyle
\frac...
...ls $0\le x_1,\ldots,x_n
\le b$,}\\  0\,, & \mbox{sonst.}
\end{array}\right.
$

    • Weil die Abbildung $ b\to L(x_1,\ldots,x_n;b)$ monoton fallend ist für $ b>\max\{x_1,\ldots,x_n\}\ge 0$, ergibt sich der Maximum-Likelihood-Schätzer

      $\displaystyle \,\widehat b(X_1,\ldots,X_n)=\max\{X_1,\ldots,X_n\}
$

    für den Parameter $ b$.

next up previous contents
Nächste Seite: Bayes-Schätzer Aufwärts: Methoden zur Gewinnung von Vorherige Seite: Momenten-Methode   Inhalt
Ursa Pantle 2004-07-14