1. Produkter
  2.   Parser
  3.   Python
  4.   PyMuPDF
 
  

Open Source Python PDF Parser Library

Prøv dette gratis & open Source Python-bibliotek for at parse, læse og udtrække tekst, billeder, tabeller og andet indhold fra PDF-dokumenter.

Hvad er PyMuPDF?

PyMuPDF, også kendt som Fitz, er et open source Python-bibliotek, der giver et omfattende sæt værktøjer til at arbejde med PDF-filer. Med PyMuPDF kan brugere effektivt udføre opgaver såsom at åbne PDF'er, udtrække tekst, billeder og tabeller, manipulere sideegenskaber som rotation og beskæring, oprette nye PDF-dokumenter og konvertere PDF-sider til billeder.

PyMuPDF understøtter flere funktioner, som er anført nedenfor:

  • PDF-dokumentlæsning: PyMuPDF kan åbne og læse PDF-dokumenter, så du kan få adgang til tekst, billeder og andet indhold i dem.
  • Tekstudtrækning: Du kan udtrække tekst fra PDF-dokumenter, inklusive tekstindhold, skrifttyper og layoutoplysninger.
  • Billedudtrækning: Du kan udtrække billeder fra PDF-dokumenter i forskellige formater, såsom JPEG eller PNG.
  • Tabeludtræk: Du kan også udtrække tabeller fra PDF-dokumenter.

I denne gennemgang vil vores primære fokus være på udtræks- og parsingsfunktionerne i biblioteket. klik her for at få en dybdegående evaluering af funktioner til opdeling, fletning og sidestyring.

GitHub

GitHub-statistik

Navn:
Sprog:
Stjerner:
Forgafler:
Licens:
Repository blev sidst opdateret kl

Kom godt i gang med PyMuPDF

Du skal bruge Python version 3.8.0 eller nyere for at installere og bruge PyMuPDF. Så installer først Python og brug derefter nedenstående kommandoer til at installere PyMuPDF på din maskine ved hjælp af pip og virtuelt miljø.

Linux


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

MacOS


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Windows


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf  

Uddrag tekst fra PDF

Du kan bruge PyMuPDF-biblioteket i Python til at udtrække tekst fra et PDF-dokument og udføre tekstanalyse, såsom at tælle ord, blot ved at bruge funktionerne i biblioteket, som vist i koden nedenfor:

Produktion

Billedet nedenfor viser den udpakkede tekst og antallet af ord i PDF-filen:

Uddrag billeder fra PDF

Vi kan bruge PyMuPDF-biblioteket til at udtrække billeder fra et PDF-dokument i Python. Nedenstående kodestykke åbner den angivne PDF-fil, udtrækker billeder fra PDF'en og gemmer dem i den aktuelle arbejdsmappe:

Produktion

Følgende er PNG-billedet udtrukket fra PDF-dokumentet

Uddrag tabeller fra PDF

Vi kan også bruge PyMuPDF-biblioteket til at behandle et PDF-dokument og udtrække tabeller fra det. Tjek nedenstående kodestykke, som åbner den angivne PDF-fil og udtrækker tabeller fra PDF-dokumentet:

Produktion

Nedenstående skærmbillede viser tabellen udtrukket fra PDF-dokumentet:

Indsæt tekst i PDF

Nedenfor Python-kodestykket demonstrerer brugen af PyMuPDF-biblioteket til at indsætte tekst i en PDF-fil og gemme den ændrede PDF som text.pdf:

Produktion

Teksten indsat med ovenstående kode er fremhævet i den røde boks nedenfor:

PDF-tekstgenkendelse ved hjælp af OCR med PyMuPDF

We will perform OCR on the PDF file containing the following image:

Produktion

Billedet nedenfor viser teksten udtrukket fra billedet i den medfølgende PDF-fil:

Konklusion

Sammenfattende er PyMuPDF et professionelt værktøj med nogle klare styrker og svagheder. Det er fantastisk til opgaver som OCR og tekstudtræk, hvilket gør det værdifuldt til håndtering af tekst i PDF'er.

Det er dog ikke så godt til at udtrække tabeller fra PDF'er, især når PDF'er har kompleks struktur eller flere sideantal, hvilket kan være en ulempe for nogle brugere. Det kan også kræve yderligere biblioteker som Pandas og Tesseract OCR-sprogdatafiler i visse situationer, hvilket tilføjer kompleksitet til dets brug. På trods af disse begrænsninger forbliver PyMuPDF et robust valg til at arbejde med tekst i PDF'er.

Lignende Produkter

 Dansk