1. Produkter
  2.   Parser
  3.   Python
  4.   PyMuPDF
 
  

Åpen kildekode Python PDF Parser Library

Prøv dette gratis Python-biblioteket med åpen kildekode for å analysere, lese og trekke ut tekst, bilder, tabeller og annet innhold fra PDF-dokumenter.

Hva er PyMuPDF?

PyMuPDF, også kjent som Fitz, er et åpen kildekode Python-bibliotek som gir et omfattende sett med verktøy for å jobbe med PDF-filer. Med PyMuPDF kan brukere effektivt utføre oppgaver som å åpne PDF-er, trekke ut tekst, bilder og tabeller, manipulere sideegenskaper som rotasjon og beskjæring, lage nye PDF-dokumenter og konvertere PDF-sider til bilder.

PyMuPDF støtter flere funksjoner som er oppført nedenfor:

  • PDF-dokumentlesing: PyMuPDF kan åpne og lese PDF-dokumenter, slik at du får tilgang til teksten, bildene og annet innhold i dem.
  • Tekstuttrekking: Du kan trekke ut tekst fra PDF-dokumenter, inkludert tekstinnhold, fonter og layoutinformasjon.
  • Bildeutvinning: Du kan trekke ut bilder fra PDF-dokumenter i ulike formater, for eksempel JPEG eller PNG.
  • Tabellekstraksjon: Du kan også trekke ut tabeller fra PDF-dokumenter.

I denne anmeldelsen vil vårt primære fokus være på utvinnings- og analyseringsfunksjonene til biblioteket. For en grundig evaluering av funksjoner for splitting, sammenslåing og sideadministrasjon, vennligst klikk her.

GitHub

GitHub-statistikk

Navn:
Språk:
Stjerner:
Gafler:
Tillatelse:
Repository ble sist oppdatert kl

Komme i gang med PyMuPDF

Du trenger Python versjon 3.8.0 eller høyere for å installere og bruke PyMuPDF. Så installer først Python og bruk deretter kommandoene nedenfor for å installere PyMuPDF på maskinen din ved å bruke pip og virtuelt miljø a>.

Linux


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Mac os


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Windows


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf  

Trekk ut tekst fra PDF

Du kan bruke PyMuPDF-biblioteket i Python til å trekke ut tekst fra et PDF-dokument og utføre tekstanalyse, for eksempel å telle ord, bare ved å bruke funksjonene i biblioteket, som vist i koden nedenfor:

Bildet nedenfor viser den utpakkede teksten og antall ord i PDF-filen:

Trekk ut bilder fra PDF

Vi kan bruke PyMuPDF-biblioteket til å trekke ut bilder fra et PDF-dokument i Python. Nedenfor kodebit åpner den angitte PDF-filen, trekker ut bilder fra PDF-en og lagrer dem i gjeldende arbeidskatalog:

Følgende er PNG-bildet hentet fra PDF-dokumentet

Trekk ut tabeller fra PDF

Vi kan også bruke PyMuPDF-biblioteket til å behandle et PDF-dokument og trekke ut tabeller fra det. Sjekk nedenfor kodebit som åpner den angitte PDF-filen og trekker ut tabeller fra PDF-dokumentet:

Skjermbildet nedenfor viser tabellen hentet fra PDF-dokumentet:

Sett inn tekst i PDF

Nedenfor Python-kodebiten demonstrerer bruken av PyMuPDF-biblioteket for å sette inn tekst i en PDF-fil og lagre den endrede PDF-en som text.pdf:

Teksten som er satt inn med koden ovenfor, er uthevet i den røde boksen nedenfor:

PDF-tekstgjenkjenning ved hjelp av OCR med PyMuPDF

We will perform OCR on the PDF file containing the following image:

Bildet nedenfor viser teksten som er trukket ut fra bildet i den medfølgende PDF-filen:

Konklusjon

Oppsummert er PyMuPDF et profesjonelt verktøy med noen klare styrker og svakheter. Den er flott for oppgaver som OCR og tekstutvinning, noe som gjør den verdifull for håndtering av tekst i PDF-filer.

Det er imidlertid ikke så bra til å trekke ut tabeller fra PDF-er, spesielt når PDF-filer har kompleks struktur eller flere sider, noe som kan være en ulempe for noen brukere. Det kan også kreve ekstra biblioteker som Pandas og Tesseract OCR-språkdatafiler i visse situasjoner, noe som gir kompleksitet til bruken. Til tross for disse begrensningene er PyMuPDF fortsatt et robust valg for å jobbe med tekst i PDF-filer.

Lignende Produkter

 Norsk