PDF a TXTS in Ubuntu

August 31

PDF a TXTS in Ubuntu


Ubuntu fornisce strumenti grafici e di riga di comando per convertire i file PDF (Portable Document) in formato testo. La versione a riga di comando, "pdftotext", automatizza il processo includendo il comando di conversione in uno script di shell. In questo modo, più file PDF possono essere modificati allo stesso tempo. Un certo numero di opzioni da linea di comando forniti con il comando di abilitazione azioni specifiche (come la conversione solo le prime pagine) che si svolgerà ogni volta che viene eseguito.

Ottenere pdftotext

Ottenere i pacchetti appropriati e comando "pdftotext" dalle librerie di Ubuntu tramite il comando:

sudo apt-get install Poppler-utils

Assicurarsi che il pacchetto installa correttamente prima di utilizzarlo.

pdftotext Man Pagina

Scopri come funziona il comando pdftotext e familiarizzare con le opzioni della riga di comando disponibili. Guardate la pagina man per il comando di inserimento "man pdftotext" al prompt di shell a riga di comando, e premere "Invio". Le opzioni della riga di comando sono costituiti da lettere, preceduti da un trattino, come ad esempio "-l", e tutti forniscono funzioni diverse.

Il comando standard per pdftotext è "pdftotext <pdffile> <file di testo>" (senza virgolette), dove <pdffile> è il nome del file PDF per estrarre, come "report.pdf" e <file di testo> è il nome del testo file di output, come ad esempio "report.txt". È possibile utilizzare qualsiasi nome di vostra scelta.

Batch di conversione PDF

Testare il comando provandolo su un paio di file PDF individualmente. Se va bene si consiglia di provare a utilizzare su un certo numero di file PDF in script di shell per automatizzare il processo. Un esempio di uno script tipico è mostrato di seguito:

for i in * .pdf

fare

pdftotext $i $i.txt

fatto

Questo script prende tutti i file PDF nella directory corrente e li esporta con il loro nome di un file di testo, in modo da "report.pdf" sarebbe diventato "report.pdf.txt"

File PDF protetti

Alcuni file PDF sono protetti sia con password o impostati in modo da evitare che l'esportazione del testo del documento. Questo è un tentativo di proteggere il copyright e se questo è il caso forse era meglio riconsiderare la conversione da un punto di vista legale. Se avete la password di un file PDF, questo può essere superato nelle opzioni della riga di comando per "pdftotext".