Libreria Python open source per convertire i file PDF in DOCX

Esplora la potenza della libreria Python open source per convertire i documenti PDF in DOCX direttamente dalle tue applicazioni Python.

Che cos'è pdf2docx?

Funzionalità API pdf2docx

Di seguito sono riportate alcune delle principali caratteristiche dell'API pdf2docx:

  • Conversione di PDF multipagina: gestisce documenti PDF multipagina, convertendo ogni pagina in una sezione corrispondente nel file DOCX.
  • Estrazione del testo: estrae in modo efficiente il testo mantenendo layout e formattazione simili al PDF originale.
  • Riconoscimento e conversione delle tabelle: utilizza algoritmi intelligenti per riconoscere ed estrarre le tabelle, convertendole in tabelle modificabili in formato DOCX.
  • Estrazione immagini: estrae le immagini incorporate nel PDF e le posiziona opportunamente nel file DOCX.
  • Stili e formattazione dei caratteri: mantiene gli stili e la formattazione di base dei caratteri, come grassetto, corsivo e sottolineato, durante la conversione.
  • Conservazione del layout di pagina: mira a preservare il layout originale del PDF, inclusi paragrafi, colonne e altri elementi di formattazione.
  • Impostazioni di conversione personalizzate: consente di specificare impostazioni personalizzate per il processo di conversione, ad esempio ignorare le immagini o estrarre solo il testo.
  • Elaborazione batch: supporta l'elaborazione batch, consentendo la conversione simultanea di più PDF in formato DOCX.
  • Estrazione basata su modelli: per i PDF con un layout coerente, consente di definire modelli per guidare il processo di estrazione, migliorando la precisione per tipi di documenti specifici.
GitHub

Statistiche GitHub

Nome: pdf2docx
Lingua: Python
Stelle: 2.9K
Forchette: 408
Licenza: GNU Affero General Public License v3.0
L'ultimo aggiornamento del repository è avvenuto il 2025-04-15

Introduzione a pdf2docx

È possibile scaricare la libreria pdf2docx da GitHub oppure utilizzando il comando pip install.

Installazione

L'installazione di pdf2docx è semplice e può essere eseguita dal terminale come mostrato di seguito:

Installazione di pdf2docx


pip3 install pdf2docx

Esempi di codice pdf2docx

Examples using the python-pptx Python library are as follow. You can use the FREE PDF file template to try these examples.

Converti PDF in DOCX usando pdf2docx

Con pdf2docx, puoi convertire un documento PDF in DOCX dall'interno della tua applicazione Python. Utilizza il seguente codice di esempio nella tua applicazione Python per ottenere questo risultato.

from pdf2docx import Converter
# Specify the PDF file to convert
pdf_file = 'example.pdf'
docx_file = 'output.docx'
# Create a Converter object and convert the PDF to DOCX
cv = Converter(pdf_file)
cv.convert(docx_file, start=0, end=None)
cv.close()
print("Conversion completed! The DOCX file has been created.")

Fonte immagine: pdf2docx Github Repo

Converti pagine specifiche di un file PDF utilizzando pdf2docx

pdf2docx consente inoltre di convertire pagine specifiche di un file PDF in DOCX. Si definiscono le pagine di inizio e fine di un file PDF da convertire in DOCX e quindi l'API le converte in DOCX.

from pdf2docx import Converter
# PDF file to be converted
pdf_file = 'example.pdf'
# Output DOCX file
docx_file = 'output.docx'
# Create a PDF to DOCX converter object
cv = Converter(pdf_file)
# Convert pages 5 to 10 (note that page indices start from 0, so adjust accordingly)
cv.convert(docx_file, start=4, end=10) # This will convert pages 5 to 9
# Close the converter when done
cv.close()
print("Conversion of specific pages completed! The DOCX file has been created.")

Estrarre tabelle da un file PDF utilizzando pdf2docx

pdf2docx consente anche di estrarre tabelle da un file PDF e di ricavarne del testo. In alternativa, puoi estrarre tabelle da un file PDF e salvarle anche in file DOCX.

from pdf2docx import Converter
pdf_file = 'sample_pdf.pdf'
converter = Converter(pdf_file)
tables = converter.extract_tables(start=0, end=1)
converter.close()
#loop through the tables to print these
for table in tables:
print(table)

Limitazioni di pdf2docx

Anche pdf2docx ha alcune limitazioni che vanno tenute a mente quando si lavora con l'API. Queste sono:

  • It can only process Text-based PDF file
  • Only Left to right language PDF files can be processed
  • Direzione di lettura normale, nessuna trasformazione/rotazione delle parole
  • Il metodo basato su regole non può convertire al 100% il layout PDF

Risorse pdf2docx

  • File modello PDF GRATUITO
  • Conclusione

    pdf2docx è una libreria molto potente per convertire PDF in DOCX all'interno delle tue applicazioni Python. Come sviluppatore di applicazioni, puoi usare questa API per creare potenti applicazioni di conversione PDF e ospitarle online per convertire la funzionalità PDF in DOCX nella tua applicazione.

    Prodotti Simili

     Italiano