inizializzare il programma con la pagina web iniziale che si desidera scaricare . Aggiungere l'URL per questa pagina in una nuova tabella di database di URL .
2
Invia un comando al browser web sia stato ordinato di andare a prendere questa pagina web , e salvarlo su disco. Spostare il puntatore del database avanti di un passo oltre l' URL che hai appena scaricato , che ora puntare alla fine della tabella .
3
Leggi la pagina web nel programma, e analizzarlo per link a pagine web aggiuntive. Questo è in genere fatto una ricerca per la stringa di testo "http://", e catturare il testo tra quella stringa e un carattere di terminazione (come " ", " . " , Oppure " > " ) . Aggiungi questi link per la tabella del database URL , il puntatore del database deve rimanere in cima a questa nuova lista
4
prova le voci della tabella di database per l'unicità , e rimuovere qualsiasi URL che appare più di una volta . .
5
Se si desidera applicare un filtro URL (ad esempio , per prevenire il download di pagine dai siti a domini diversi ) , si applica ora alla tabella di database di URL e rimuovere qualsiasi URL che non desideri per scaricare .
6
impostare un ciclo programmatico così il vostro ragno torna al punto 2 di cui sopra . Ciò ricorsivamente scaricare tutti gli URL vostro ragno incontra . Rimozione di URL duplicati assicura che il ragno correttamente interrompere quando raggiunge l'ultimo indirizzo URL univoco.
Programmazione © www.354353.com