Tutti voi dovete avere familiarità con cosa sono i PDF. In effetti, sono uno dei media digitali più importanti e ampiamente utilizzati. PDF sta per Formato documento portatile . Utilizza .PDF estensione. Viene utilizzato per presentare e scambiare documenti in modo affidabile, indipendentemente da software, hardware o sistema operativo.
Estrarremo il testo da file pdf utilizzando due librerie Python, pypdf E PyMuPDF , in questo articolo.
Estrazione di testo da un file PDF utilizzando la libreria pypdf.
Pacchetto Python pypdf può essere utilizzato per ottenere ciò che vogliamo (estrazione del testo), sebbene possa fare più di ciò di cui abbiamo bisogno. Questo pacchetto può essere utilizzato anche per generare, decrittografare e unire file PDF. Nota: Per ulteriori informazioni, fare riferimento a Lavorare con file PDF in Python
Installazione
Per installare questo pacchetto digitare il comando seguente nel terminale.
pip install pypdf>
Esempio: Inserisci PDF: 
Python3
cos'è il prologo
# importing required modules> from> pypdf>import> PdfReader> > # creating a pdf reader object> reader>=> PdfReader(>'example.pdf'>)> > # printing number of pages in pdf file> print>(>len>(reader.pages))> > # getting a specific page from the pdf file> page>=> reader.pages[>0>]> > # extracting text from page> text>=> page.extract_text()> print>(text)> |
>
>
Produzione:
Proviamo a comprendere il codice sopra in blocchi:
reader = PdfReader('example.pdf')> - Abbiamo creato un oggetto di PdfReader classe da pypdf modulo.
- IL PdfReader La classe accetta un argomento posizionale richiesto del percorso del file pdf.
print(len(reader.pages))>
- pagine la proprietà fornisce un elenco di Oggetti di pagina . Quindi, qui possiamo usare il file in-built soltanto() funzione di Python per ottenere il numero di pagine nel file pdf.
page = reader.pages[0]>
- Ora, come lettore.pagine è un elenco di Oggetti di pagina , possiamo ottenere uno specifico Pagina del pdf toccando l'indice della pagina. Nell'indicizzazione dell'elenco Python inizia da 0, quindi lettore.pagine[0] ci fornisce la prima pagina del file pdf.
text = page.extract_text() print(text)>
- L'oggetto della pagina ha una funzione estrai_testo() per estrarre il testo dalla pagina pdf.
Estrazione di testo da un file PDF utilizzando la libreria PyMuPDF.
PyMuPDF è una libreria Python che supporta formati di file come XPS, PDF, CBR e CBZ. Ma per ora, in questo articolo, ci concentreremo sui file PDF (Portable Document Format).
Installazione
pip install pymupdf pip install fitz>
Per estrarre il testo dal pdf, dobbiamo seguire i seguenti passaggi:
- Importazione della libreria
- Documento di apertura
- Estrazione del testo
Nota: Stiamo utilizzando il file sample.pdf qui; per ottenere il pdf, utilizzare il collegamento sottostante.
campione.pdf – Collegamento
1. Importazione della libreria
Python3
interruttore C#
import> fitz> |
>
>
2. Apertura del documento
Python3
peso di kat timpf
doc>=> fitz.>open>(>'sample.pdf'>)> |
>
>
Qui abbiamo creato un oggetto chiamato doc e il nome file dovrebbe essere una stringa Python.
3. Estrazione del testo
Python3
for> page>in> doc:> >text>=> page.get_text()> >print>(text)> |
>
>
conversione da nfa a dfa
Qui, abbiamo ripetuto le pagine in pdf e utilizzato il file get_testo() metodo per estrarre ogni pagina dal file.
Tutto il codice per estrarre il testo
Python3
import> fitz> doc>=> fitz.>open>(>'sample.pdf'>)> text>=> ''> for> page>in> doc:> >text>+>=>page.get_text()> print>(text)> |
>
come eseguire uno script
>
Produzione:

Conclusione
Abbiamo visto due librerie Python, pypdf E PyMuPDF , che può estrarre testo da un file PDF. Commenta la tua libreria preferita dalle due librerie precedenti.