Avoimen lähdekoodin Python PDF Parser Library
Kokeile tätä ilmaista ja avoimen lähdekoodin Python-kirjastoa jäsentääksesi, lukeaksesi ja poimiaksesi tekstiä, kuvia, taulukoita ja muuta sisältöä PDF-dokumenteista.
Mikä on PyMuPDF?
PyMuPDF, joka tunnetaan myös nimellä Fitz, on avoimen lähdekoodin Python-kirjasto, joka tarjoaa kattavan joukon työkaluja PDF-tiedostojen käsittelyyn. PyMuPDF:n avulla käyttäjät voivat tehokkaasti suorittaa tehtäviä, kuten avata PDF-tiedostoja, poimia tekstiä, kuvia ja taulukoita, manipuloida sivun ominaisuuksia, kuten kiertoa ja rajausta, luoda uusia PDF-dokumentteja ja muuntaa PDF-sivuja kuviksi.
PyMuPDF tukee useita alla lueteltuja ominaisuuksia:
- PDF-dokumenttien lukeminen: PyMuPDF voi avata ja lukea PDF-dokumentteja, jolloin voit käyttää niissä olevaa tekstiä, kuvia ja muuta sisältöä.
- Tekstin purkaminen: Voit poimia PDF-dokumenteista tekstiä, mukaan lukien tekstisisältöä, fontteja ja asettelutietoja.
- Kuvien purkaminen: Voit poimia PDF-dokumenteista kuvia eri muodoissa, kuten JPEG tai PNG.
- Taulukon purkaminen: Voit myös poimia taulukoita PDF-dokumenteista.
Tässä katsauksessa keskitymme ensisijaisesti kirjaston purkamis- ja jäsennysominaisuuksiin. Jos haluat perusteellisen arvion jakamis-, yhdistämis- ja sivunhallintaominaisuuksista, napsauta tätä.
PyMuPDF:n käytön aloittaminen
Tarvitset Python-version 3.8.0 tai uudemman PyMuPDF:n asentamiseen ja käyttämiseen. Joten asenna ensin Python ja asenna sitten PyMuPDF koneellesi alla olevien komentojen avulla käyttämällä pip ja virtuaaliympäristö.
Linux
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Mac käyttöjärjestelmä
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Windows
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
Poimi teksti PDF-tiedostosta
Pythonin PyMuPDF-kirjaston avulla voit poimia tekstiä PDF-dokumentista ja suorittaa tekstianalyysiä, kuten laskea sanoja, vain käyttämällä kirjaston toimintoja alla olevan koodin mukaisesti:
Alla olevassa kuvassa näkyy poimittu teksti ja sanojen määrä PDF-tiedostossa:
Pura kuvat PDF-tiedostosta
PyMuPDF-kirjaston avulla voimme poimia kuvia PDF-dokumentista Pythonissa. Alla oleva koodinpätkä avaa määritetyn PDF-tiedoston, poimii kuvat PDF-tiedostosta ja tallentaa ne nykyiseen työhakemistoon:
Seuraavassa on PDF-dokumentista poimittu PNG-kuva
Pura taulukot PDF-tiedostosta
PyMuPDF-kirjaston avulla voimme myös käsitellä PDF-dokumentteja ja poimia siitä taulukoita. Tarkista alla oleva koodinpätkä, joka avaa määritetyn PDF-tiedoston ja poimii taulukot PDF-dokumentista:
Alla kuvakaappaus näyttää PDF-dokumentista poimitun taulukon:
Lisää teksti PDF-tiedostoon
Alla Python-koodinpätkä osoittaa PyMuPDF-kirjaston käytön tekstin lisäämiseen PDF-tiedostoon ja muokatun PDF-tiedoston tallentamiseen text.pdf-muodossa:
Yllä olevalla koodilla lisätty teksti on korostettu alla olevassa punaisessa laatikossa:
PDF-tekstin tunnistus käyttämällä OCR:ää PyMuPDF:n kanssa
We will perform OCR on the PDF file containing the following image:Alla olevassa kuvassa näkyy mukana toimitetussa PDF-tiedostossa olevasta kuvasta poimittu teksti:
Johtopäätös
Yhteenvetona PyMuPDF on ammattimainen työkalu, jolla on selkeitä vahvuuksia ja heikkouksia. Se sopii erinomaisesti tehtäviin, kuten OCR ja tekstin purkaminen, mikä tekee siitä arvokkaan PDF-tiedostojen tekstin käsittelyyn.
Se ei kuitenkaan ole niin hyvä poimimaan taulukoita PDF-tiedostoista, varsinkin kun PDF-tiedostoilla on monimutkainen rakenne tai enemmän sivuja, mikä saattaa olla haitta joillekin käyttäjille. Tietyissä tilanteissa se voi myös vaatia lisäkirjastoja, kuten Pandas- ja Tesseract OCR -kielidatatiedostoja, mikä lisää sen käyttöä monimutkaisemmin. Näistä rajoituksista huolimatta PyMuPDF on edelleen vankka valinta PDF-tiedostojen tekstin käsittelyyn.