Home Hardware Networking Programmazione Software Domanda Sistemi Computer
Conoscenza del computer >> Computer >> Software >> .

Come estrarre il testo da un documento PDF

Può essere molto frustrante provare a estrarre il testo da un file PDF per utilizzarlo in un'altra applicazione. Non è insolito che la grafica si frapponga o il layout del documento renda difficile il trasferimento del test in frasi significative. Sebbene non sia impossibile estrarre il testo con un approccio copia e incolla, può richiedere molto tempo e non consente l'esportazione del testo del file PDF in un formato diverso. Esistono tuttavia alcuni modi per estrarre il testo da un file PDF.

Estrai testo utilizzando Acrobat Reader

Passaggio 1

Apri il file in Acrobat Reader. In Windows, seleziona "File -> Esporta documento in testo", dai un nome al documento e salvalo.

Passaggio 2

Copia il testo su un sistema operativo Mac o Linux accedendo al menu Visualizza e scegliendo " Continuo "o" Rivestimento continuo ". (Il primo ti fornirà il testo in una colonna, mentre il secondo formatterà il testo come pagine affiancate.) Vai su "Modifica -> Seleziona tutto" e poi "Modifica -> Copia".

Usa lo strumento Seleziona se vuoi estrarre solo parte del testo. Fai clic sullo strumento "Selezione testo", quindi scegli le informazioni desiderate. In un documento formattato in più colonne, devi prima utilizzare lo strumento "Selezione colonna". "

Converti PDF in HTML

Passaggio 1

Usa Gmail come scorciatoia. Allega il file PDF a un'email e invialo al tuo account Gmail. Quando apri l'e-mail vedrai una serie di opzioni accanto all'allegato. Scegli "Visualizza come HTML" e salva il file che si apre in una finestra separata. Sebbene non sia possibile visualizzare alcun elemento grafico, il file HTML manterrà la formattazione del testo del documento.

Passaggio 2

Estrai e converti i file dalla riga di comando. Gli utenti Linux possono utilizzare un comando di conversione di base che cambierà un file .pdf in un file .txt: "pdftotext nomefile.pdf". Assicurati di sostituire il nome file con il nome del file PDF.

Scarica un programma di conversione da PDF a testo. Sono disponibili numerosi programmi open source e freeware come PDFBox e Easy PDF to Text Converter (vedi Risorse di seguito). Molti di questi programmi possono anche convertire file PDF in HTML.

Suggerimenti

Determina se il documento è formattato per contenere sia testo che grafica. L'approccio Adobe Acrobat funzionerà solo se il file PDF contiene entrambi; non funzionerà solo per i file con immagini. In alcuni casi il testo in un documento PDF viene effettivamente formattato come immagine. Ciò accade spesso quando un documento originale viene scansionato e un file PDF viene creato dall'immagine scansionata.

Preparati a riformattare parte del testo quando usi Acrobat Reader. Questo modo di estrazione esporta semplicemente il file PDF in un file di testo: non manterrà necessariamente la formattazione. Tuttavia, se hai solo bisogno di usare le parole, questo non dovrebbe essere un problema.

Articoli che ti serviranno

File PDF

Adobe Acrobat Reader

Account Gmail (opzionale)

Software di conversione da PDF a testo (opzionale)

 

Computer © www.354353.com