Universität Ulm - Sektion Angewandte
Informationsverarbeitung
7. Übungsblatt (30.06.98 bis 14.07.98)
zur Vorlesung Systemnahe Software 2 (SS 98)
Zum Abschluß von Soft werfen wir noch einen kleinen Blick durchs
Schlüsselloch (hier: Port 80) in die große weite
Welt des Internets :-)
Aufgabe 1 (10 Punkte)
Schreiben Sie ein C-Programm, das eine HTML-Seite von einem WWW-Server
(Port 80) holt und dann testet, ob sich im Text der Seite bestimmte
Suchbegriffe befinden (UND-Verknüpfung!).
Bsp.: suchhtml ulm donau eis
www.mathematik.uni-ulm.de/index.html
Das Programm holt die Seite index.html
vom WWW-Server der Fakultät und schaut nach, ob sich alle Suchbegriffe
("ulm", "donau" und "eis") im Textteil der Seite befinden.
Beim Suchen soll Groß und Kleinschreibung ignoriert werden ("Eis"
findet auch "EIS").
Hinweise:
-
Eine HTML-Seite besteht neben dem Text auch aus einer Reihe von Gestaltungsanweisungen
in < >; das Filterprogramm html2word
liest ein HTML-Dokument von stdin,
eliminiert aus dem Dokument sämtliche Nicht-Textstellen, zerlegt den
Text der Seite in einzelne Wörter und gibt diese alphabetisch sortiert
an stdout aus.
Das Programm html2word
wird in den Übungen vorgestellt.
-
Sie können das Modul call_socket.c
verwenden, das in den Übungen vorgestellt wird
-
Um z.B. die Seite /sai/grabert/index.html
von der Thales zu erhalten, muß an den Port 80 der Thales der folgende
String geschickt werden:
"GET /sai/grabert/index.html
HTTP/1.0\n\n"