Universität Ulm- Sektion Angewandte Informationsverarbeitung

5. Übungsblatt (20.11.97 bis 27.11.97)

zur Vorlesung Unix Datenbanken I (WS 97/98)

„"Hmm!", meint Professor Gerngroß, der Sie zufällig auf dem Gang trifft, „"Heute Nacht stellte ich bei einem Glas Champagner die These auf, daß die soziale Kompliance der pädiatrischen Typ-I-Diabetiker einen negativen Peak in der Pubertät erreicht. Indikator ist da sicher der HbA1c-Wert. Sie können das doch anhand der Daten bis nächste Woche verifizieren!? Muß leider gleich weiter ...".

Nach einem mehrstündigen Treffen mit seinem Assistenzarzt, Dr. Marbuse, wissen Sie, was der Professor da gemeint hat: er glaubt, daß die HbA1c-Werte der Patienten während der Pubertät (also im Alter von 11 bis 15 Jahren) schlechter sind als vorher (im Alter bis 10 Jahren) und nachher (also 16 und älter). Mit Hilfe von Dr. Marbuse stellen Sie einen Plan auf, wie man das deskriptiv an den Daten überprüfen kann. Zuerst teilt man die Labordaten in 3 Blöcke auf: Daten, die in der präpubertären Phase der Patienten erhoben wurden, Daten aus der pubertären Phase und Daten aus der postpubertären Phase.
Damit die Meßhäufigkeit der HbA1c-Werte pro Patient keine Rolle spielt ("schlechter eingestellte" Patienten kommen möglicherweise seltener in die Klinik), bildet man nun zuerst den Median aller Werte eines Patienten in einem Block. Aus den so entstandenen HbA1c-Medianen der einzelnen Patienten in einem Block (also ein Wert pro Patient pro Block) bildet man dann in einem 2.Schritt die jeweiligen Gesamtmediane aus den Medianen der Patienten pro Block. So weiß man nun, wie hoch der Gesamtmedian der präpubertären, pubertären und postpubertären Patienten in den Daten ist und kann die These des Professors überprüfen.
(Anmerkung: um statistisch signifikante Ergebnisse nachzuweisen, würde man den Wilcoxon-Test für verbundene Stichproben einsetzen. Das ist hier nicht verlangt!)

Ach ja: der Median wird für eine Zahlenfolge ai mit n Elementen, n>= 1, wie folgt berechnet:

Der Median ist gegenüber Ausreißern in einer Zahlenreihe nicht so anfällig wie der Mittelwert. Außerdem wird der Mittelwert bei Vorliegen einer symmetrischen Verteilung verwendet. Dies ist bei den HbA1c-Werten sicher nicht der Fall.

Aufgabe 1 (10 Punkte)

Überprüfen Sie die These des Profs anhand der Datendateien aus Blatt 3, indem Sie mit obigem Algorithmus die jeweiligen Gesamtmediane aller präpubertären, pubertären und postpubertären HbA1c-Werte berechnen. Sämtliche bisher in der Vorlesung verwendeten UNIX-Tools sind erlaubt!