Open Source Python PDF Parser Library
Prøv dette gratis & open Source Python-bibliotek for at parse, læse og udtrække tekst, billeder, tabeller og andet indhold fra PDF-dokumenter.
Hvad er PyMuPDF?
PyMuPDF, også kendt som Fitz, er et open source Python-bibliotek, der giver et omfattende sæt værktøjer til at arbejde med PDF-filer. Med PyMuPDF kan brugere effektivt udføre opgaver såsom at åbne PDF'er, udtrække tekst, billeder og tabeller, manipulere sideegenskaber som rotation og beskæring, oprette nye PDF-dokumenter og konvertere PDF-sider til billeder.
PyMuPDF understøtter flere funktioner, som er anført nedenfor:
- PDF-dokumentlæsning: PyMuPDF kan åbne og læse PDF-dokumenter, så du kan få adgang til tekst, billeder og andet indhold i dem.
- Tekstudtrækning: Du kan udtrække tekst fra PDF-dokumenter, inklusive tekstindhold, skrifttyper og layoutoplysninger.
- Billedudtrækning: Du kan udtrække billeder fra PDF-dokumenter i forskellige formater, såsom JPEG eller PNG.
- Tabeludtræk: Du kan også udtrække tabeller fra PDF-dokumenter.
I denne gennemgang vil vores primære fokus være på udtræks- og parsingsfunktionerne i biblioteket. klik her for at få en dybdegående evaluering af funktioner til opdeling, fletning og sidestyring.
Kom godt i gang med PyMuPDF
Du skal bruge Python version 3.8.0 eller nyere for at installere og bruge PyMuPDF. Så installer først Python og brug derefter nedenstående kommandoer til at installere PyMuPDF på din maskine ved hjælp af pip og virtuelt miljø.
Linux
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
MacOS
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Windows
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
Uddrag tekst fra PDF
Du kan bruge PyMuPDF-biblioteket i Python til at udtrække tekst fra et PDF-dokument og udføre tekstanalyse, såsom at tælle ord, blot ved at bruge funktionerne i biblioteket, som vist i koden nedenfor:
Produktion
Billedet nedenfor viser den udpakkede tekst og antallet af ord i PDF-filen:
Uddrag billeder fra PDF
Vi kan bruge PyMuPDF-biblioteket til at udtrække billeder fra et PDF-dokument i Python. Nedenstående kodestykke åbner den angivne PDF-fil, udtrækker billeder fra PDF'en og gemmer dem i den aktuelle arbejdsmappe:
Produktion
Følgende er PNG-billedet udtrukket fra PDF-dokumentet
Uddrag tabeller fra PDF
Vi kan også bruge PyMuPDF-biblioteket til at behandle et PDF-dokument og udtrække tabeller fra det. Tjek nedenstående kodestykke, som åbner den angivne PDF-fil og udtrækker tabeller fra PDF-dokumentet:
Produktion
Nedenstående skærmbillede viser tabellen udtrukket fra PDF-dokumentet:
Indsæt tekst i PDF
Nedenfor Python-kodestykket demonstrerer brugen af PyMuPDF-biblioteket til at indsætte tekst i en PDF-fil og gemme den ændrede PDF som text.pdf:
Produktion
Teksten indsat med ovenstående kode er fremhævet i den røde boks nedenfor:
PDF-tekstgenkendelse ved hjælp af OCR med PyMuPDF
We will perform OCR on the PDF file containing the following image:Produktion
Billedet nedenfor viser teksten udtrukket fra billedet i den medfølgende PDF-fil:
Konklusion
Sammenfattende er PyMuPDF et professionelt værktøj med nogle klare styrker og svagheder. Det er fantastisk til opgaver som OCR og tekstudtræk, hvilket gør det værdifuldt til håndtering af tekst i PDF'er.
Det er dog ikke så godt til at udtrække tabeller fra PDF'er, især når PDF'er har kompleks struktur eller flere sideantal, hvilket kan være en ulempe for nogle brugere. Det kan også kræve yderligere biblioteker som Pandas og Tesseract OCR-sprogdatafiler i visse situationer, hvilket tilføjer kompleksitet til dets brug. På trods af disse begrænsninger forbliver PyMuPDF et robust valg til at arbejde med tekst i PDF'er.