Wir betrachten zunächst den Spezialfall , d.h., die
Merkmale/Kenngrößen/Variablen und besitzen jeweils nur
zwei verschiedene Ausprägungen/Werte.
Die entsprechende -Kontingenztafel hat somit die Form
Für jedes heißt der Quotient der bedingten relativen
Häufigkeiten
(15)
die bedingte Chance für , wobei
vorausgesetzt wird.
Hieraus ergibt sich ein einfaches Zusammenhangsmaß zwischen den
Chancen der ersten bzw. zweiten Zeile der -Kontingenztafel, das relative Chance genannt wird und
gegeben ist durch den Quotienten
(16)
wobei
vorausgesetzt wird.
Beispiel
Für das in Abschnitt 2.3.1 diskutierte Beispiel
betrachten wir jetzt nur die Ausprägungen ,,fachspezifische
Ausbildung'' (F) bzw. ,,Hochschulabschluss'' (H) für das Merkmal
,,Ausbildungsniveau'' sowie die Ausprägungen
,,Kurzzeitarbeitslosigkeit'' ( 6 Monate) bzw. ,,mittel- und
langfristige Arbeitslosigkeit'' ( 7 Monate) für das Merkmal
,,Dauer der Arbeitslosigkeit''.
Dann ergibt sich die folgende -Kontingenztafel
der absoluten Häufigkeiten:
Die ,,bedingte Chance''
von Personen mit
fachspezifischer Ausbildung, kurzfristig arbeitslos zu sein
(gegenüber einer mittel- bzw. langfristigen Arbeitslosigkeit), ist
also gegeben durch
Für Personen mit Hochschulabschluss ergibt sich dagegen der Wert
Für die ,,relative Chance'' ergibt sich
d.h., für Personen mit Hochschulabschluss stehen somit die
,,Chancen'' deutlich besser.
Beachte
Die Begriffe der bedingten bzw. relativen Chance lassen sich
völlig analog auch für den Fall definieren, dass Merkmale mit mehr
als 2 Ausprägungen betrachtet werden.
Die relative Chance zwischen und
bezüglich der bedingten Chancen von und
ist dann gegeben durch
-Koeffizient
Wir definieren nun den -Koeffizienten der beiden
Stichproben
und
,
der eine weitere Maßzahl zur Beschreibung des (eventuell
vorhandenen) Zusammenhanges zwischen den Werten der Stichproben
und
der beiden Markmale
und ist,
wobei wir das Nichtvorhandensein eines solchen Zusammenhanges mit
Hilfe der bedingten relativen Häufigkeiten
beschreiben, die in (14) eingeführt worden sind.
Man erwartet, dass die bedingten relativen Häufigkeiten
in diesem Fall
nicht von abhängen,
was gleichbedeutend damit ist, dass
Mit anderen Worten: Falls die Ausprägungen/Werte der
Merkmale/Kenngrößen/Variablen und keinen Zusammmenhang
aufweisen (d.h. unabhängig sind), dann sollte die (in diesem
Fall) erwartete Häufigkeit, mit der die Kombination der Ausprägungen
und auftritt, für jedes
unf für jedes
der folgenden Gleichung genügen:
d.h., gegeben sein durch den Produkt-Ansatz
Beachte
Falls die Ausprägungen/Werte der Merkmale/Kenngrößen/Variablen
und keinen Zusammenhang aufweisen, dann sollten sich die
(tatsächlich beobachteten) Häufigkeiten und die (zu
erwartenden) Häufigkeiten
nicht zu sehr
voneinander unterscheiden.
Als Zusammenhangsmaß betrachtet man deshalb den -Koeffizienten, der eine sogenannte Testgröße ist und
gegeben ist durch
(17)
wobei vorausgesetzt wird, dass sämtliche Randhäufigkeiten
sowie
positiv sind, und die Division durch
lediglich der
Normierung dient.
Im Spezialfall einer -Kontingenztafel
lässt sich der in (17) definierte
-Koeffizient leicht berechnen, denn in diesem Fall
gilt
(18)
wobei vorausgesetzt wird, dass die Randhäufigkeiten
,
,
und
positiv sind.
Für den in (17) definierten -Koeffizienten
gilt stets , wobei
groß ist, wenn ein Zusammenhang zwischen und besteht,
klein ist, wenn und voneinander unabhängig sind.
Um genauer sagen zu können, wann als klein bzw. groß anzusehen
ist, sind tieferliegende mathematische Modelle der beurteilenden Statistik erforderlich, insbesondere sogenannte
Signifikanztests zum Überprüfen von Modellannahmen; vgl.
beispielsweise
das Skript zum Grundkurs "Stochastik für
Wirtschaftswissenschaftler" unter der Internet-Adresse:
oder die Kapitel 3 und des
jetzigen Vorlesungsskriptes.
Kontingenzkoeffizient
Der in (17) definierte -Koeffizient hat
den Nachteil, dass der Wertebereich von vom Umfang der
Stichproben
bzw.
abhängt.
Dieser Nachteil wird eliminiert, wenn anstelle des
-Koeffizienten der Kontingenzkoeffizient betrachtet wird,
der gegeben ist durch
(19)
wobei nur Werte zwischen 0 und
annehmen kann;
.
Korrigierter Kontingenzkoeffizient
Ein gewisser Nachteil des Kontingenzkoeffizienten
besteht noch darin, dass der Wertebereich der Testgröße
von den Anzahlen der Ausprägungen von bzw.
abhängt.
Durch einen weiteren Normierungsschritt wird deshalb der
sogenannte korrigierte Kontingenzkoeffizient
eingeführt, der gegeben ist durch
und der nur Werte im Einheitsintervall annehmen kann.
Beispiel
Für das in Abschnitt 2.3.1 eingeführte Beispiel
betrachten wir nun die Ausprägungen ,,keine Ausbildung'' bzw.
,,Lehre'' für das Merkmal ,,Ausbildungsniveau'' sowie die
Ausprägungen ,,mittelfristige Arbeitslosigkeit'' (7-12 Monate)
bzw. ,,langfristige Arbeitslosigkeit ( 12 Monate) für das
Merkmal ,,Dauer der Arbeitslosigkeit''.
Dann ergibt sich die folgende -Kontingenztafel
der absoluten Häufigkeiten: