Aprire l' editor di testo IDLE in Programmi (o applicazioni per Macintosh ) nella directory di Python . Si apre un file di codice sorgente vuoto
2
importare il modulo " Html5lib " scrivendo le seguenti dichiarazioni nella parte superiore del file di codice sorgente : .
Importazione html5lib
da treebuilders importazione html5lib , treewalkers , serializer
importazione urllib2
3
Crea un nuovo parser HTML 5 , che verrà utilizzato per leggere un sito web HTML . Dichiarare un nuovo parser scrivendo il seguente :
parser = html5lib.HTMLParser ( ) economici 4
aprire un sito web passando il suo nome nella funzione urllib2.urlopen . Per esempio, se si desidera aprire " www.website_adddress.com ", scrivere il seguente : .
URL = urllib2.urlopen ( " http://www.website_address.com " ) read ()
5
passare il sito web in HTML 5 parser per ricevere una rappresentazione ad albero . Salva questa rappresentazione in una variabile chiamata " albero " , scrivendo la seguente dichiarazione :
albero = Parser.parse (URL ) economici 6
Creare un albero camminatore come questo:
TreeWalker = treewalkers.getTreeWalker ( " dom" ) economici 7
Passeggiata attraverso l'albero utilizzando l'albero camminatore . L'albero camminatore restituirà un flusso di informazioni che si scopre in HTML 5 sito web. Per camminare attraverso l'albero , scrivere il seguente :
stream = TreeWalker ( albero ) economici 8
serializzare il flusso in modo che si può facilmente trasmettere alla console . È possibile serializzare il flusso utilizzando le seguenti due affermazioni :
seriali = serializer.htmlserializer.HTMLSerializer ( omit_optional_tags = False ) per uscita
= serial.serialize (stream ) economici 9
scorrere l' uscita serializzato del torrente come questo:
per l'elemento in uscita :
10
rientro riga immediatamente dopo l'istruzione precedente e scrivere una funzione di stampa , come questo :
stampa ( elemento ) economici 11
esegui il programma premendo F5 . Lo script si aprirà e quindi analizzare un HTML 5 pagina web . Lo script quindi serializza la struttura ad albero della pagina e lo emette alla console . L'uscita varia in base alla pagina web scelto , ma potrebbe essere simile a questa :
< /head>
Benvenuti in una pagina web!
< /body>
< /html >
Programmazione © www.354353.com