aprire l'editor di Python .
2
caricare il modulo Espressione regolare digitando il seguente :
import re
3
definire una funzione per rimuovere tutti i tag HTML . Ad esempio , digitare quanto segue :
def delete_html ( dati ) :
4
separare gli elementi di codice HTML , utilizzando la funzione " re.compile " per compilare i modelli di espressioni regolari in un oggetto che è possibile utilizzare per il pattern matching . Continuando l'esempio , digitare questo :
htmlPattern = re.compile ( r ' < . ? * >' ) Per
In questo esempio , l'attributo " re.compile " dice a Python per cercare la stringa "' < .. > ", che indica l'inizio e la fine tag HTML .
Il qualificatore " . * ? " dice a Python per soddisfare solo i tag . Senza il qualificatore , Python restituisce la stringa "
sostituire un spazio per tutto il codice HTML utilizzando la funzione di "sub " . Continuando l'esempio , digitare quanto segue :
ritorno htmlPattern.sub ('' , dati ) per
In questo caso, Python strisce fuori il codice HTML e lo sostituisce con uno spazio vuoto . A questo punto , a seconda di come si vuole strutturare i dati , è possibile utilizzare la funzione di " striscia " di stringa per rimuovere gli spazi vuoti o utilizzare le espressioni regolari , come ad esempio "\\ s + ", per rimuovere gli spazi in più .
Programmazione © www.354353.com