Next: Herleitung der Formeln für
Up: Beschreibung von metrischen bivariaten
Previous: Streudiagramm (Scatterplot)
  Contents
Empirische Kovarianz; empirischer Korrelationskoeffizient
- Empirische Kovarianz
- Aus dem Streudiagramm des Beispiels, das in
Abschnitt 2.4.1 betrachtet wurde, ergibt sich die
Vermutung, dass
- ein Zusammenhang zwischen den Merkmalen ,,Clusterzahl je Traube''
(
) und ,,Jahresertrag''(
) besteht, denn
- für wachsende Werte des Merkmals
weist auch das Merkmal
tendenzmäßig größere Werte auf.
- Eine Maßzahl zur Beschreibung eines solchen Zusammenhanges ist die
empirische Kovarianz
 |
(22) |
der Stichproben
und
, wobei
die Stichprobenmittel von
bzw.
bezeichnen.
- Beachte
- Ein Nachteil des in (22) definierten
Zuhammenhangsmaßes besteht darin, dass
skalenabhängig
ist, d.h., von der Größe der Stichprobenwerte
bzw.
abhängt.
- Dieser Nachteil wird eliminiert, wenn anstelle der empirischen
Kovarianz
der empirische Korrelationskoeffizient
betrachtet wird.
- Empirischer Korrelationskoeffizient
- Die Größe
 |
(23) |
heißt empirischer Korrelationskoeffizient der Stichproben
und
, wobei die
Stichprobenvarianzen
und
gegeben sind durch
- Man kann zeigen, dass für den in (23) definierten
empirischen Korrelationskoeffizienten
stets
 |
(24) |
gilt, wobei
-
groß ist, wenn ein Zusammenhang zwischen
und
besteht, und
-
klein ist, wenn
und
voneinander unabhängig
sind.
- Insbesondere kann man zeigen, dass
-
, falls sämtliche Punkte
auf einer Geraden mit positivem Anstieg liegen,
bzw.
-
, falls sämtliche Punkte
auf einer Geraden mit negativem
Anstieg liegen.
- Der empirische Korrelationskoeffizient
misst darüber
hinaus in dem folgenden Sinne die Stärke des linearen
Zusammenhanges zwischen den Ausprägungen/Werten der Merkmale
und
:
- Je näher die Punkte
an einer Geraden
mit positivem Anstieg liegen, um so näher liegt der empirische
Korrelationskoeffizient
bei
, und
- je näher die Punkte
an einer Geraden
mit negativem Anstieg liegen, um so näher liegt der empirische
Korrelationskoeffizient
bei
.
- Eine (grobe) Klassifikation des Zusammenhanges der Merkmale
und
kann somit wie folgt beschrieben werden:
- ,,schwacher Zusammenhang'', falls
,
- ,,mittlerer Zusammenhang'', falls
,
- ,,starker Zusammenhang'', falls
.
- Alternative Darstellung des empirischen
Korrelationskoeffizienten
- Empirischer Korrelationskoeffizient bei binären Daten
- Außerdem lässt sich für binäre Daten, d.h., falls die
Stichprobenwerte
und
nur 0
oder
sein können, noch eine weitere nützliche
Darstellungsformel für den empirischen Korrelationskoeffizienten
angeben.
- Mit der in Abschnitt 2.3.1 eingeführten Notation gilt
dann
 |
(26) |
wobei
für jedes
unf für jedes
die absolute Häufigkeit bezeichnet, mit der die
Kombination
der Ausprägungen
und
in den Stichproben
bzw.
auftritt.
- Beachte
- Wenn man die Formeln (18) und
(26) miteinander vergleicht, dann erkennt man, dass
der
-Koeffizient
und der empirische
Korrelationskoeffizient
bei binären Daten wie folgt
zusammenhängen: Es gilt
 |
(27) |
- Wir betrachten nun erneut das in Abschnitt 2.3.1
eingeführte Beispiel mit den Ausprägungen ,,keine Ausbildung''
bzw. ,,Lehre'' für das Merkmal ,,Ausbildungsniveau'' sowie den
Ausprägungen ,,mittelfristige Arbeitslosigkeit'' (7-12 Monate)
bzw. ,,langfristige Arbeitslosigkeit (
12 Monate) für das
Merkmal ,,Dauer der Arbeitslosigkeit''.
- Wenn wir dabei die Eintragungen der
-Kontingenztafel (20) in die Darstellungsformel
(26) einsetzen, dann ergibt sich, dass
- Hieraus und aus (27) ergibt sich darüber hinaus,
dass
was mit dem Ergebnis (21) übereinstimmt, das
bereits am Ende von Abschnitt 2.3.3 ermittelt wurde.
- Invarianzeigenschaft bei linearer Daten-Transformation
Next: Herleitung der Formeln für
Up: Beschreibung von metrischen bivariaten
Previous: Streudiagramm (Scatterplot)
  Contents
Hendrik Schmidt
2003-07-21