|
Stichprobenverfahren für Datenbanken in der Industrie
Die Hauptaufgabe des Knowledge Discovery in Databases (KDD)
ist die effiziente Extraktion nützlichen, aber bisher unbekannten,
Wissens aus existierenden Datenbanken. KDD ist ein komplexer,
iterativer und interaktiver Prozeß der Bearbeitung verschiedener
Teilaufgaben. Eine der Teilaufgaben der Vorbereitung der Daten ist
Focusing. Focusing ist die Reduzierung des Datenvolumens bzgl. der
Anzahl der Datenbankeinträge oder bzgl. der Anzahl der Attribute bzw.
der Werte.
Die Aufgabe der Diplomarbeit ist die Bearbeitung der Teilaufgabe Focusing
bzgl. der Anzahl der Datenbankeinträge durch den Einsatz statistischer
Stichprobenverfahren:
- Betrachtung und Bewertung statistischer Stichprobenverfahren für
den Einsatz in KDD,
- Implementierung (in C oder C++) und Auswertung geeigneter Stichprobenverfahren
für relationale Datenbanken,
- Entwicklung (und ggbf. Implementierung) eines generischen
Stichprobenverfahrens.
Die Implementierung und Auswertung der Stichprobenverfahren erfolgt
im Rahmen eines seit Januar 1995 laufenden KDD Projektes bei der
Daimler-Benz Forschung in Ulm. Als konkrete Datenbank
steht ein Qualitäts-Informations-System bei Mercedes-Benz zur
Verfügung. Diese Datenbank enthält Informationen zu
Ausstattungsmerkmalen und während derGarantie- und Kulanzzeit
eingetretenen Schadensfällen und -ursachen von Fahrzeugen.
Das Ziel der Analyse dieser Daten besteht insbesondere in der
frühzeitigen Erkennung potentieller Schadenshäufungen,
um zukünftige Garantieleistungen abzuschätzen und die Qualität
der Produkte zu verbessern.
Die Arbeit kann ab sofort beginnen.
Falls Sie
- während Ihrer Diplomarbeit wertvolle Praxiserfahrung
sammeln möchten,
- gewohnt sind, engagiert und selbstständig zu arbeiten, über
- Kenntnisse in Statistik (insbesondere Stichprobenverfahren) und
- Grundkenntnisse in relationalen Datenbanken (Oracle) verfügen sowie
- die Programmiersprache C oder C++ beherrschen,
wenden Sie sich bitte an Prof. Dr. Uwe Jensen oder an
Thomas P. Reinartz
Daimler-Benz AG
Forschung und Technik F3S/E
Telefon: 0731/505-4010
e-mail:reinartz@dbag.ulm.daimlerbenz.com
Literatur
- Fayyad, U.M. et al. (1996). From Data Mining to Knowledge Discovery in
Databases: An Overview. In:Fayyad, U.M., Piatetsky-Shapiro, G. Smyth, P. and
Uthurusamy, R. (eds.) Advances in Knowledge Discovery and Data Mining.
Cambridge, MA, MIT Press, pp. 1-29.
- Cochran, W.G. (1977). Sampling Techniques. New York, Wiley Series.
|