Next: Herleitung der Formeln für
Up: Beschreibung von metrischen bivariaten
Previous: Streudiagramm (Scatterplot)
  Contents
Empirische Kovarianz; empirischer Korrelationskoeffizient
- Empirische Kovarianz
- Aus dem Streudiagramm des Beispiels, das in
Abschnitt 2.4.1 betrachtet wurde, ergibt sich die
Vermutung, dass
- ein Zusammenhang zwischen den Merkmalen ,,Clusterzahl je Traube''
() und ,,Jahresertrag''() besteht, denn
- für wachsende Werte des Merkmals weist auch das Merkmal
tendenzmäßig größere Werte auf.
- Eine Maßzahl zur Beschreibung eines solchen Zusammenhanges ist die
empirische Kovarianz
|
(22) |
der Stichproben
und
, wobei
die Stichprobenmittel von
bzw.
bezeichnen.
- Beachte
- Ein Nachteil des in (22) definierten
Zuhammenhangsmaßes besteht darin, dass skalenabhängig
ist, d.h., von der Größe der Stichprobenwerte
bzw.
abhängt.
- Dieser Nachteil wird eliminiert, wenn anstelle der empirischen
Kovarianz der empirische Korrelationskoeffizient
betrachtet wird.
- Empirischer Korrelationskoeffizient
- Die Größe
|
(23) |
heißt empirischer Korrelationskoeffizient der Stichproben
und
, wobei die
Stichprobenvarianzen und gegeben sind durch
- Man kann zeigen, dass für den in (23) definierten
empirischen Korrelationskoeffizienten stets
|
(24) |
gilt, wobei
-
groß ist, wenn ein Zusammenhang zwischen und
besteht, und
-
klein ist, wenn und voneinander unabhängig
sind.
- Insbesondere kann man zeigen, dass
-
, falls sämtliche Punkte
auf einer Geraden mit positivem Anstieg liegen,
bzw.
-
, falls sämtliche Punkte
auf einer Geraden mit negativem
Anstieg liegen.
- Der empirische Korrelationskoeffizient misst darüber
hinaus in dem folgenden Sinne die Stärke des linearen
Zusammenhanges zwischen den Ausprägungen/Werten der Merkmale
und :
- Je näher die Punkte
an einer Geraden
mit positivem Anstieg liegen, um so näher liegt der empirische
Korrelationskoeffizient bei , und
- je näher die Punkte
an einer Geraden
mit negativem Anstieg liegen, um so näher liegt der empirische
Korrelationskoeffizient bei .
- Eine (grobe) Klassifikation des Zusammenhanges der Merkmale
und kann somit wie folgt beschrieben werden:
- ,,schwacher Zusammenhang'', falls
,
- ,,mittlerer Zusammenhang'', falls
,
- ,,starker Zusammenhang'', falls
.
- Alternative Darstellung des empirischen
Korrelationskoeffizienten
- Empirischer Korrelationskoeffizient bei binären Daten
- Außerdem lässt sich für binäre Daten, d.h., falls die
Stichprobenwerte
und
nur 0
oder sein können, noch eine weitere nützliche
Darstellungsformel für den empirischen Korrelationskoeffizienten
angeben.
- Mit der in Abschnitt 2.3.1 eingeführten Notation gilt
dann
|
(26) |
wobei
für jedes
unf für jedes
die absolute Häufigkeit bezeichnet, mit der die
Kombination der Ausprägungen
und
in den Stichproben
bzw.
auftritt.
- Beachte
- Wenn man die Formeln (18) und
(26) miteinander vergleicht, dann erkennt man, dass
der -Koeffizient und der empirische
Korrelationskoeffizient bei binären Daten wie folgt
zusammenhängen: Es gilt
|
(27) |
- Wir betrachten nun erneut das in Abschnitt 2.3.1
eingeführte Beispiel mit den Ausprägungen ,,keine Ausbildung''
bzw. ,,Lehre'' für das Merkmal ,,Ausbildungsniveau'' sowie den
Ausprägungen ,,mittelfristige Arbeitslosigkeit'' (7-12 Monate)
bzw. ,,langfristige Arbeitslosigkeit ( 12 Monate) für das
Merkmal ,,Dauer der Arbeitslosigkeit''.
- Wenn wir dabei die Eintragungen der -Kontingenztafel (20) in die Darstellungsformel
(26) einsetzen, dann ergibt sich, dass
- Hieraus und aus (27) ergibt sich darüber hinaus,
dass
was mit dem Ergebnis (21) übereinstimmt, das
bereits am Ende von Abschnitt 2.3.3 ermittelt wurde.
- Invarianzeigenschaft bei linearer Daten-Transformation
Next: Herleitung der Formeln für
Up: Beschreibung von metrischen bivariaten
Previous: Streudiagramm (Scatterplot)
  Contents
Andreas Narr
2004-07-12