Aufgabe 8 (15 Punkte)
Erweitern Sie Ihr C-Programm von Aufgabe 7 so, daß es nun wirklich online HTML-Dokumente durchsuchen kann. Die Suchmaschine sollte folgendermaßen aufgerufen werden:
suchmaschine wort{+wort} server-adresse/dokument
Sie durchsucht das entsprechende Dokument auf dem angegebenen Server nach der Wortliste und gibt eine Meldung auf Stdout aus, falls das Dokument sämtliche Wörter der Liste enthält. Danach geht es allen im Dokument enthaltenen Querverweisen à la <a href="..."> nach und durchsucht diese rekursiv. Damit sich Ihr Programm nicht in der weiten Welt verliert, darf es den Server nicht verlassen. Außerdem beschränkt sich die Rekursionstiefe auf 5 und die Gesamtzahl aller durchsuchten Dokumente auf maximal 100. Es handelt sich somit also um eine kleine Intranet-Suchmaschine.
Achten Sie darauf, daß Sie eine einfache Maßnahme einbauen, mit der Sie bereits durchsuchte Dokumente erkennen, falls sie ein zweites Mal auftauchen. Ansonsten würde Ihr Programm sich in Loops "verlieren".
String in HREF="..." Ergebnisadresse /pfad/ www.aktserv/pfad/ pfad/ www.aktserv/oldpath/pfad/ http://www.newserver/path/ www.newserver/path/ //www.newserver/path/ www.newserver/path/ http:/path/ www.aktserv/path/ /path/doku.html#4 Verweis auf eine Textmarke in www.aktserv/path/doku.html (komplett ignorieren!) /path/picture.[gif|tif|jpg] Verweis auf Bilder! Ignorieren! Erkennt man am Protokollheader
/www/thales/ftp/pub/vorlesungen/ss97/soft/zb/8
und Tschüß ...!