logo

Estrai testo da un file PDF utilizzando Python

Tutti voi dovete avere familiarità con cosa sono i PDF. In effetti, sono uno dei media digitali più importanti e ampiamente utilizzati. PDF sta per Formato documento portatile . Utilizza .PDF estensione. Viene utilizzato per presentare e scambiare documenti in modo affidabile, indipendentemente da software, hardware o sistema operativo.

Estrarremo il testo da file pdf utilizzando due librerie Python, pypdf E PyMuPDF , in questo articolo.



Estrazione di testo da un file PDF utilizzando la libreria pypdf.

Pacchetto Python pypdf può essere utilizzato per ottenere ciò che vogliamo (estrazione del testo), sebbene possa fare più di ciò di cui abbiamo bisogno. Questo pacchetto può essere utilizzato anche per generare, decrittografare e unire file PDF. Nota: Per ulteriori informazioni, fare riferimento a Lavorare con file PDF in Python

Installazione

Per installare questo pacchetto digitare il comando seguente nel terminale.

pip install pypdf>

Esempio: Inserisci PDF: estratto-pdf-testo-python



Python3






cos'è il prologo

# importing required modules> from> pypdf>import> PdfReader> > # creating a pdf reader object> reader>=> PdfReader(>'example.pdf'>)> > # printing number of pages in pdf file> print>(>len>(reader.pages))> > # getting a specific page from the pdf file> page>=> reader.pages[>0>]> > # extracting text from page> text>=> page.extract_text()> print>(text)>

>

>

Produzione:

estratto-pdf-python

Proviamo a comprendere il codice sopra in blocchi:

reader = PdfReader('example.pdf')>
  • Abbiamo creato un oggetto di PdfReader classe da pypdf modulo.
  • IL PdfReader La classe accetta un argomento posizionale richiesto del percorso del file pdf.
print(len(reader.pages))>
  • pagine la proprietà fornisce un elenco di Oggetti di pagina . Quindi, qui possiamo usare il file in-built soltanto() funzione di Python per ottenere il numero di pagine nel file pdf.
page = reader.pages[0]>
  • Ora, come lettore.pagine è un elenco di Oggetti di pagina , possiamo ottenere uno specifico Pagina del pdf toccando l'indice della pagina. Nell'indicizzazione dell'elenco Python inizia da 0, quindi lettore.pagine[0] ci fornisce la prima pagina del file pdf.
text = page.extract_text() print(text)>
  • L'oggetto della pagina ha una funzione estrai_testo() per estrarre il testo dalla pagina pdf.

Estrazione di testo da un file PDF utilizzando la libreria PyMuPDF.

PyMuPDF è una libreria Python che supporta formati di file come XPS, PDF, CBR e CBZ. Ma per ora, in questo articolo, ci concentreremo sui file PDF (Portable Document Format).

Installazione

pip install pymupdf pip install fitz>

Per estrarre il testo dal pdf, dobbiamo seguire i seguenti passaggi:

  1. Importazione della libreria
  2. Documento di apertura
  3. Estrazione del testo

Nota: Stiamo utilizzando il file sample.pdf qui; per ottenere il pdf, utilizzare il collegamento sottostante.

campione.pdf – Collegamento

1. Importazione della libreria

Python3

interruttore C#




import> fitz>

>

>

2. Apertura del documento

Python3


peso di kat timpf



doc>=> fitz.>open>(>'sample.pdf'>)>

>

>

Qui abbiamo creato un oggetto chiamato doc e il nome file dovrebbe essere una stringa Python.

3. Estrazione del testo

Python3




for> page>in> doc:> >text>=> page.get_text()> >print>(text)>

>

>

conversione da nfa a dfa

Qui, abbiamo ripetuto le pagine in pdf e utilizzato il file get_testo() metodo per estrarre ogni pagina dal file.

Tutto il codice per estrarre il testo

Python3




import> fitz> doc>=> fitz.>open>(>'sample.pdf'>)> text>=> ''> for> page>in> doc:> >text>+>=>page.get_text()> print>(text)>

>

come eseguire uno script
>

Produzione:

Conclusione

Abbiamo visto due librerie Python, pypdf E PyMuPDF , che può estrarre testo da un file PDF. Commenta la tua libreria preferita dalle due librerie precedenti.