Bibliotecă Python PDF Parser Open Source
Încercați această bibliotecă Python gratuită și open source pentru a analiza, citi și extrage text, imagini, tabele și alt conținut din documente PDF.
Ce este PyMuPDF?
PyMuPDF, cunoscut și sub numele de Fitz, este o bibliotecă Python open-source care oferă un set cuprinzător de instrumente pentru lucrul cu fișiere PDF. Cu PyMuPDF, utilizatorii pot efectua în mod eficient sarcini precum deschiderea PDF-urilor, extragerea de text, imagini și tabele, manipularea proprietăților paginilor, cum ar fi rotația și decuparea, crearea de noi documente PDF și conversia paginilor PDF în imagini.
PyMuPDF acceptă mai multe caracteristici care sunt enumerate mai jos:
- Citirea documentelor PDF: PyMuPDF poate deschide și citi documente PDF, permițându-vă să accesați textul, imaginile și alt conținut din ele.
- Extragerea textului: puteți extrage text din documente PDF, inclusiv conținut text, fonturi și informații despre aspect.
- Extragerea imaginilor: puteți extrage imagini din documente PDF în diferite formate, cum ar fi JPEG sau PNG.
- Extragerea tabelelor: puteți extrage și tabele din documente PDF.
În această revizuire, accentul nostru principal va fi pe caracteristicile de extragere și analizare ale bibliotecii. Pentru o evaluare aprofundată a funcțiilor de împărțire, îmbinare și gestionare a paginilor, vă rugăm să dați clic aici.
Noțiuni introductive cu PyMuPDF
Aveți nevoie de versiunea Python 3.8.0 sau o versiune ulterioară pentru a instala și utiliza PyMuPDF. Deci, mai întâi instalați Python și apoi utilizați comenzile de mai jos pentru a instala PyMuPDF pe computer folosind pip și mediu virtual.
Linux
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
MacOS
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Windows
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
Extrageți text din PDF
Puteți utiliza biblioteca PyMuPDF din Python pentru a extrage text dintr-un document PDF și pentru a efectua analize de text, cum ar fi numărarea cuvintelor, doar folosind funcțiile furnizate în bibliotecă, așa cum se arată în codul de mai jos:
Imaginea de mai jos arată textul extras și numărul de cuvinte din fișierul PDF:
Extrageți imagini din PDF
Putem folosi biblioteca PyMuPDF pentru a extrage imagini dintr-un document PDF în Python. Fragmentul de cod de mai jos deschide fișierul PDF specificat, extrage imagini din PDF și le salvează în directorul de lucru curent:
Mai jos este imaginea PNG extrasă din documentul PDF
Extrageți tabele din PDF
De asemenea, putem folosi biblioteca PyMuPDF pentru a procesa un document PDF și a extrage tabele din acesta. Verificați mai jos fragmentul de cod care deschide fișierul PDF specificat și extrage tabele din documentul PDF:
Captura de ecran de mai jos arată tabelul extras din documentul PDF:
Inserați text în PDF
Fragmentul de cod Python de mai jos demonstrează utilizarea bibliotecii PyMuPDF pentru inserarea textului într-un fișier PDF și salvarea PDF-ului modificat ca text.pdf:
Textul introdus folosind codul de mai sus este evidențiat în caseta roșie de mai jos:
Recunoașterea textului PDF folosind OCR cu PyMuPDF
We will perform OCR on the PDF file containing the following image:Imaginea de mai jos prezintă textul extras din imaginea prezentă în fișierul PDF furnizat:
Concluzie
În rezumat, PyMuPDF este un instrument profesional cu câteva puncte tari și puncte slabe clare. Este excelent pentru sarcini precum OCR și extragerea textului, ceea ce îl face valoros pentru manipularea textului în PDF-uri.
Cu toate acestea, nu este atât de bun la extragerea tabelelor din PDF-uri, mai ales atunci când PDF-urile au o structură complexă sau un număr mai mare de pagini, ceea ce ar putea fi un dezavantaj pentru unii utilizatori. De asemenea, poate necesita biblioteci suplimentare, cum ar fi fișierele de date în limbajul Pandas și Tesseract OCR, în anumite situații, adăugând complexitate utilizării sale. În ciuda acestor limitări, PyMuPDF rămâne o alegere robustă pentru lucrul cu text în PDF-uri.