La struttura e la sintassi del HyperText Markup Langauge , o HTML , dice non solo di un browser Web come visualizzare il contenuto di un file, ma anche individua dati strutturali relativi al file stesso. Questi tag sono anche un valore inestimabile se sei un programmatore in cerca di codificare un programma che spogliare specifiche sezioni di un file HTML , come ad esempio la sua intestazione e piè di pagina. HTML Anatomia
HTML utilizza un semplice sistema di mark up tag per identificare le diverse parti di un documento HTML . Intestazione del file HTML è contrassegnato dal tag "
" , il piè di pagina dal tag
. Un lettore HTML interpreterà nulla tra il tag di apertura e il tag che indica la sezione di chiusura, " < /intestazione " > attraverso " < /footer > ", come parte della sezione indicata. Altri tag , come ad esempio " " corrispondono ad altri componenti del file . Identificazione intestazioni e piè Quando si crea il codice a nudo intestazioni e piè di pagina HTML di distanza , non si può fare affidamento sul conoscere esattamente quanto tempo l'intestazione o piè di pagina saranno. Mentre alcune intestazioni e piè di pagina sono costituiti da una sola linea , potrebbero essere molto più lungo . Di conseguenza , il codice non può semplicemente cercare il tag " / ", allora il '\\ n' simbolo che indica la fine di una riga . Quando si legge il contenuto del file HTML in una stringa di caratteri , si dovrà individuare la posizione di indice del primo " < " del tag iniziale, così come il ">" del tag terminale . Individuazione String posizioni Entrambi i linguaggi di basso livello come C e C + + e linguaggi di alto livello come Python e Ruby hanno metodi che consentono di individuare gli elementi di testo all'interno di una data stringa . Questi metodi restituiranno la posizione di indice del primo carattere del testo che si sta cercando. Quando si è alla ricerca dei tag iniziali, questo vi darà il vostro punto di partenza per la rimozione di testo . Quando si sta cercando il tag terminale , ricordate che il punto che si desidera o è sei ( " < /head> " ) o sette ( " < /footer > " ) le posizioni in davanti al numero del metodo dà voi. striping Codice
una volta che avete le posizioni di indice per l'intestazione o piè di pagina del segmento che si desidera rimuovere , è possibile andare a farlo in uno dei due generali modi . Uno è quello di richiamare i metodi appropriati per cancellare i caratteri tra la prima e l'ultima posizione di indice per il segmento . Questo permetterà di modificare direttamente la stringa originale . È anche possibile creare una nuova stringa per creare due versioni del contenuto del file HTML : il file originale e una versione ridotta di intestazione e piè di pagina di codice . Farlo assegnando il contenuto della stringa originale fino alla posizione di indice iniziale , e poi tutto dopo l'ultima posizione di indice , per la nuova stringa .