1. Produkter
  2.   Parser
  3.   Python
  4.   PyMuPDF
 
  

Open Source Python PDF Parser Library

Prova detta gratis Python-bibliotek med öppen källkod för att analysera, läsa och extrahera text, bilder, tabeller och annat innehåll från PDF-dokument.

Vad är PyMuPDF?

PyMuPDF, även känd som Fitz, är ett Python-bibliotek med öppen källkod som tillhandahåller en omfattande uppsättning verktyg för att arbeta med PDF-filer. Med PyMuPDF kan användare effektivt utföra uppgifter som att öppna PDF-filer, extrahera text, bilder och tabeller, manipulera sidegenskaper som rotation och beskärning, skapa nya PDF-dokument och konvertera PDF-sidor till bilder.

PyMuPDF stöder flera funktioner som listas nedan:

  • PDF-dokumentläsning: PyMuPDF kan öppna och läsa PDF-dokument, vilket ger dig tillgång till text, bilder och annat innehåll i dem.
  • Textextraktion: Du kan extrahera text från PDF-dokument, inklusive textinnehåll, teckensnitt och layoutinformation.
  • Bildextraktion: Du kan extrahera bilder från PDF-dokument i olika format, som JPEG eller PNG.
  • Tabellextraktion: Du kan även extrahera tabeller från PDF-dokument.

I den här recensionen kommer vårt primära fokus att ligga på utvinnings- och analysfunktionerna i biblioteket. För en djupgående utvärdering av funktioner för delning, sammanslagning och sidhantering klicka här.

GitHub

GitHub-statistik

Namn:
Språk:
Stjärnor:
Gafflar:
Licens:
Repository uppdaterades senast kl

Komma igång med PyMuPDF

Du behöver Python version 3.8.0 eller senare för att installera och använda PyMuPDF. Så installera först Python och använd sedan nedanstående kommandon för att installera PyMuPDF på din maskin med pip och virtuell miljö a>.

Linux


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

MacOS


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Windows


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf  

Extrahera text från PDF

Du kan använda PyMuPDF-biblioteket i Python för att extrahera text från ett PDF-dokument och utföra textanalys, som att räkna ord, bara genom att använda funktionerna i biblioteket, som visas i koden nedan:

Produktion

Bilden nedan visar den extraherade texten och antalet ord i PDF-filen:

Extrahera bilder från PDF

Vi kan använda PyMuPDF-biblioteket för att extrahera bilder från ett PDF-dokument i Python. Nedan kodavsnitt öppnar den angivna PDF-filen, extraherar bilder från PDF:en och sparar dem i den aktuella arbetskatalogen:

Produktion

Följande är PNG-bilden extraherad från PDF-dokumentet

Extrahera tabeller från PDF

Vi kan också använda PyMuPDF-biblioteket för att bearbeta ett PDF-dokument och extrahera tabeller från det. Kontrollera nedanstående kodavsnitt som öppnar den angivna PDF-filen och extraherar tabeller från PDF-dokumentet:

Produktion

Nedanstående skärmdump visar tabellen extraherad från PDF-dokumentet:

Infoga text i PDF

Nedan Python-kodavsnittet visar användningen av PyMuPDF-biblioteket för att infoga text i en PDF-fil och spara den ändrade PDF-filen som text.pdf:

Produktion

Texten som infogats med ovanstående kod är markerad i den röda rutan nedan:

PDF-textigenkänning med OCR med PyMuPDF

We will perform OCR on the PDF file containing the following image:

Produktion

Bilden nedan visar texten extraherad från bilden som finns i den medföljande PDF-filen:

Slutsats

Sammanfattningsvis är PyMuPDF ett professionellt verktyg med några tydliga styrkor och svagheter. Det är utmärkt för uppgifter som OCR och textextraktion, vilket gör det värdefullt för hantering av text i PDF-filer.

Det är dock inte så bra på att extrahera tabeller från PDF-filer, speciellt när PDF-filer har komplex struktur eller fler sidor, vilket kan vara en nackdel för vissa användare. Dessutom kan det kräva ytterligare bibliotek som Pandas och Tesseract OCR-språkdatafiler i vissa situationer, vilket gör användningen mer komplex. Trots dessa begränsningar förblir PyMuPDF ett robust val för att arbeta med text i PDF-filer.

Liknande Produkter

 Swedish