Come estrarre il testo da un documento PDF

February 8

Può essere molto frustrante per cercare di estrarre il testo da un file PDF per l'uso in un'altra applicazione. Non è raro per la grafica per ottenere nel modo o per il layout del documento da rendere difficile per il test da trasferire in frasi significative. Anche se non è impossibile estrarre il testo con un approccio copia-e-incolla, può richiedere molto tempo e non permette per il testo file PDF da esportare come un formato diverso. Ci sono, tuttavia, alcuni modi per estrarre il testo da un file PDF.

istruzione

Estrarre testo utilizzando Acrobat Reader

1 Aprire il file in Acrobat Reader. In Windows, selezionare "File -> Esporta documento al testo," il nome del documento e salvarlo.

2 Copiare il testo su un Mac o Linux OS accedendo al menu Visualizza e scegliendo "continua" o "continuo di marcia." (Il primo vi fornirà il testo in una colonna, mentre il secondo sarà formattare il testo come pagine side-by-side.) Vai "Modifica -> Seleziona tutto" e poi "Modifica -.> Copia"

3 Utilizzare lo strumento di selezione se desideri solo estrarre una parte del testo. Fare clic sullo strumento "Text Select" e quindi scegliere le informazioni che si desidera. In un documento formattato in più colonne, è necessario utilizzare lo strumento "Colonna Select" prima. Vai su "Modifica -.> Copia"

Conversione da PDF a HTML

4 Usare Gmail come scorciatoia. Allegare il file PDF in una e-mail e inviarlo al tuo account Gmail. Quando si apre l'e-mail si vedrà una serie di opzioni accanto alla allegato. Scegliere "Visualizza come HTML" e salvare il file che si apre in una finestra separata. Anche se non sarà in grado di visualizzare qualsiasi immagine, il file HTML manterrà la formattazione del testo del documento.

5 Estrarre e convertire i file sulla riga di comando. Gli utenti Linux possono utilizzare un comando di conversione di base che cambierà un file PDF in un file .txt: "filename.pdf pdftotext." Assicurarsi di sostituire il nome del file con il nome del file PDF.

6 Scarica un PDF di programma di conversione del testo. Ci sono una serie di open source e programmi freeware disponibili, come PDFBox e facile PDF to Text Converter (vedi Risorse). Molti di questi programmi possono anche convertire i file PDF in HTML.

Consigli e avvertenze

  • Determinare se il documento è formattato per contenere sia testo e grafica. L'approccio di Adobe Acrobat funziona solo se il file PDF contiene sia; non funziona per i file con solo immagini. In alcuni casi il testo in un documento PDF viene effettivamente formattato come un'immagine. Questo accade spesso quando un documento originale viene sottoposto a scansione e un file PDF è creato dall'immagine digitalizzata.
  • Siate pronti a riformattare una parte del testo quando si utilizza Acrobat Reader. Questo modo di estrazione esporta semplicemente il file PDF in un file di testo - non manterrà necessariamente mantenere la formattazione. Tuttavia, se avete solo bisogno di usare le parole questo non dovrebbe essere un problema.