Åpen kildekode Python PDF Parser Library
Prøv dette gratis Python-biblioteket med åpen kildekode for å analysere, lese og trekke ut tekst, bilder, tabeller og annet innhold fra PDF-dokumenter.
Hva er PyMuPDF?
PyMuPDF, også kjent som Fitz, er et åpen kildekode Python-bibliotek som gir et omfattende sett med verktøy for å jobbe med PDF-filer. Med PyMuPDF kan brukere effektivt utføre oppgaver som å åpne PDF-er, trekke ut tekst, bilder og tabeller, manipulere sideegenskaper som rotasjon og beskjæring, lage nye PDF-dokumenter og konvertere PDF-sider til bilder.
PyMuPDF støtter flere funksjoner som er oppført nedenfor:
- PDF-dokumentlesing: PyMuPDF kan åpne og lese PDF-dokumenter, slik at du får tilgang til teksten, bildene og annet innhold i dem.
- Tekstuttrekking: Du kan trekke ut tekst fra PDF-dokumenter, inkludert tekstinnhold, fonter og layoutinformasjon.
- Bildeutvinning: Du kan trekke ut bilder fra PDF-dokumenter i ulike formater, for eksempel JPEG eller PNG.
- Tabellekstraksjon: Du kan også trekke ut tabeller fra PDF-dokumenter.
I denne anmeldelsen vil vårt primære fokus være på utvinnings- og analyseringsfunksjonene til biblioteket. For en grundig evaluering av funksjoner for splitting, sammenslåing og sideadministrasjon, vennligst klikk her.
Komme i gang med PyMuPDF
Du trenger Python versjon 3.8.0 eller høyere for å installere og bruke PyMuPDF. Så installer først Python og bruk deretter kommandoene nedenfor for å installere PyMuPDF på maskinen din ved å bruke pip og virtuelt miljø a>.
Linux
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Mac os
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Windows
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
Trekk ut tekst fra PDF
Du kan bruke PyMuPDF-biblioteket i Python til å trekke ut tekst fra et PDF-dokument og utføre tekstanalyse, for eksempel å telle ord, bare ved å bruke funksjonene i biblioteket, som vist i koden nedenfor:
Bildet nedenfor viser den utpakkede teksten og antall ord i PDF-filen:
Trekk ut bilder fra PDF
Vi kan bruke PyMuPDF-biblioteket til å trekke ut bilder fra et PDF-dokument i Python. Nedenfor kodebit åpner den angitte PDF-filen, trekker ut bilder fra PDF-en og lagrer dem i gjeldende arbeidskatalog:
Følgende er PNG-bildet hentet fra PDF-dokumentet
Trekk ut tabeller fra PDF
Vi kan også bruke PyMuPDF-biblioteket til å behandle et PDF-dokument og trekke ut tabeller fra det. Sjekk nedenfor kodebit som åpner den angitte PDF-filen og trekker ut tabeller fra PDF-dokumentet:
Skjermbildet nedenfor viser tabellen hentet fra PDF-dokumentet:
Sett inn tekst i PDF
Nedenfor Python-kodebiten demonstrerer bruken av PyMuPDF-biblioteket for å sette inn tekst i en PDF-fil og lagre den endrede PDF-en som text.pdf:
Teksten som er satt inn med koden ovenfor, er uthevet i den røde boksen nedenfor:
PDF-tekstgjenkjenning ved hjelp av OCR med PyMuPDF
We will perform OCR on the PDF file containing the following image:Bildet nedenfor viser teksten som er trukket ut fra bildet i den medfølgende PDF-filen:
Konklusjon
Oppsummert er PyMuPDF et profesjonelt verktøy med noen klare styrker og svakheter. Den er flott for oppgaver som OCR og tekstutvinning, noe som gjør den verdifull for håndtering av tekst i PDF-filer.
Det er imidlertid ikke så bra til å trekke ut tabeller fra PDF-er, spesielt når PDF-filer har kompleks struktur eller flere sider, noe som kan være en ulempe for noen brukere. Det kan også kreve ekstra biblioteker som Pandas og Tesseract OCR-språkdatafiler i visse situasjoner, noe som gir kompleksitet til bruken. Til tross for disse begrensningene er PyMuPDF fortsatt et robust valg for å jobbe med tekst i PDF-filer.