Open Source Python PDF Parser Library
Prova detta gratis Python-bibliotek med öppen källkod för att analysera, läsa och extrahera text, bilder, tabeller och annat innehåll från PDF-dokument.
Vad är PyMuPDF?
PyMuPDF, även känd som Fitz, är ett Python-bibliotek med öppen källkod som tillhandahåller en omfattande uppsättning verktyg för att arbeta med PDF-filer. Med PyMuPDF kan användare effektivt utföra uppgifter som att öppna PDF-filer, extrahera text, bilder och tabeller, manipulera sidegenskaper som rotation och beskärning, skapa nya PDF-dokument och konvertera PDF-sidor till bilder.
PyMuPDF stöder flera funktioner som listas nedan:
- PDF-dokumentläsning: PyMuPDF kan öppna och läsa PDF-dokument, vilket ger dig tillgång till text, bilder och annat innehåll i dem.
- Textextraktion: Du kan extrahera text från PDF-dokument, inklusive textinnehåll, teckensnitt och layoutinformation.
- Bildextraktion: Du kan extrahera bilder från PDF-dokument i olika format, som JPEG eller PNG.
- Tabellextraktion: Du kan även extrahera tabeller från PDF-dokument.
I den här recensionen kommer vårt primära fokus att ligga på utvinnings- och analysfunktionerna i biblioteket. För en djupgående utvärdering av funktioner för delning, sammanslagning och sidhantering klicka här.
Komma igång med PyMuPDF
Du behöver Python version 3.8.0 eller senare för att installera och använda PyMuPDF. Så installera först Python och använd sedan nedanstående kommandon för att installera PyMuPDF på din maskin med pip och virtuell miljö a>.
Linux
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
MacOS
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Windows
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
Extrahera text från PDF
Du kan använda PyMuPDF-biblioteket i Python för att extrahera text från ett PDF-dokument och utföra textanalys, som att räkna ord, bara genom att använda funktionerna i biblioteket, som visas i koden nedan:
Produktion
Bilden nedan visar den extraherade texten och antalet ord i PDF-filen:
Extrahera bilder från PDF
Vi kan använda PyMuPDF-biblioteket för att extrahera bilder från ett PDF-dokument i Python. Nedan kodavsnitt öppnar den angivna PDF-filen, extraherar bilder från PDF:en och sparar dem i den aktuella arbetskatalogen:
Produktion
Följande är PNG-bilden extraherad från PDF-dokumentet
Extrahera tabeller från PDF
Vi kan också använda PyMuPDF-biblioteket för att bearbeta ett PDF-dokument och extrahera tabeller från det. Kontrollera nedanstående kodavsnitt som öppnar den angivna PDF-filen och extraherar tabeller från PDF-dokumentet:
Produktion
Nedanstående skärmdump visar tabellen extraherad från PDF-dokumentet:
Infoga text i PDF
Nedan Python-kodavsnittet visar användningen av PyMuPDF-biblioteket för att infoga text i en PDF-fil och spara den ändrade PDF-filen som text.pdf:
Produktion
Texten som infogats med ovanstående kod är markerad i den röda rutan nedan:
PDF-textigenkänning med OCR med PyMuPDF
We will perform OCR on the PDF file containing the following image:Produktion
Bilden nedan visar texten extraherad från bilden som finns i den medföljande PDF-filen:
Slutsats
Sammanfattningsvis är PyMuPDF ett professionellt verktyg med några tydliga styrkor och svagheter. Det är utmärkt för uppgifter som OCR och textextraktion, vilket gör det värdefullt för hantering av text i PDF-filer.
Det är dock inte så bra på att extrahera tabeller från PDF-filer, speciellt när PDF-filer har komplex struktur eller fler sidor, vilket kan vara en nackdel för vissa användare. Dessutom kan det kräva ytterligare bibliotek som Pandas och Tesseract OCR-språkdatafiler i vissa situationer, vilket gör användningen mer komplex. Trots dessa begränsningar förblir PyMuPDF ett robust val för att arbeta med text i PDF-filer.