Home Hardware Networking Programmazione Software Domanda Sistemi
Conoscenza Informatica >> Programmazione >> Python Programming >> .

Procedura: Regex per analizzare XML

XML Parsing rappresenta una sfida per il aspiranti testo analizzatore a causa di estensibilità di XML . Convenzioni di formattazione XML sono di natura gerarchica , cioè alcuni tag dominano altri tag . Le espressioni regolari ( regex ) identificare i modelli di testo XML - una regex per la corrispondenza tag XML corrisponderà tutto dentro i tag XML < > , ma non visualizza l'organizzazione gerarchica di questi tag . E ' possibile separare questa struttura di tag dal testo utilizzando il linguaggio di programmazione Python e il pacchetto di Natural Language Toolkit , che incorpora le espressioni regolari e manipolazione di testo e in grado di visualizzare i tag XML e la loro organizzazione . Istruzioni
1

Aprire una finestra di terminale e digitare il comando "python -v " al prompt di verificare la presenza e la versione di Python sul ​​vostro computer . Vai alla homepage NLTK e scaricare il pacchetto di installazione NLTK appropriato per il sistema operativo . Controllare che NLTK è installato correttamente digitando il comando " >>> import NLTK " al prompt di Python .
2

Tipo " >>> nltk.download ( ) " a aprire una finestra . Scegliere la riga con l'etichetta " tutti" e fare clic sul pulsante di download . Questo scaricherà una serie di testi per NLTK a lavorare con , tra i quali di Shakespeare " Il Mercante di Venezia " formattata con tag XML speciali per i giochi.
3

Importa il mercante di Venezia taggato in XML con il seguente comando al prompt di Python:

>>> merchant_file = nltk.data.find ( ' corpora /shakespeare /merchant.xml ' ) per

Assegnare al file un variabile in modo che si può manipolare con i comandi di Python : .

>>> grezzo = open ( merchant_file ) read ( ) per

Giusto per fare in modo che sia lì , immettere il seguente comando per visualizzare i primi 168 caratteri : .

>>> stampa grezza [ 0:168 ]

vedrete i tag di intestazione XML e le speciali etichette gioco XML

4

Immettere il seguente comando al prompt di Python :

>>> da nltk.etree.ElementTree importazione ElementTree

e premere il tasto " Return ", quindi digitare quanto segue al prompt di Python : .

>>> commerciante = ElementTree ( ) parse ( merchant_file ) per

il comando parse permette all'utente di visualizzare i tag XML e del loro contenuto . Per costruire una visione gerarchica di tag XML correttamente nidificati , inserire il seguente comando al prompt di Python :

>>> merchant.getchildren ( ) per

Questo mostrerà tutti i particolari XML giocare tag nel loro ordine gerarchico . L' output di questo comando dovrebbe essere simile a questo :

[ elemento> TITOLO a 2261b48> , PERSONAE , elemento> SCNDESCR a 22cc260> , elemento> PLAYSUBT a 22cc198> , < , Element ACT a 22cc0f8 > , elemento> ACT a f2bff08> , elemento> ACT a f3218a0> , elemento> ACT a f0e8a30> , elemento> ACT presso ee07328> ]


 

Programmazione © www.354353.com