Avoimen lähdekoodin Python PDF Parser Library

Kokeile tätä ilmaista ja avoimen lähdekoodin Python-kirjastoa jäsentääksesi, lukeaksesi ja poimiaksesi tekstiä, kuvia, taulukoita ja muuta sisältöä PDF-dokumenteista.

Mikä on PyMuPDF?

PyMuPDF, joka tunnetaan myös nimellä Fitz, on avoimen lähdekoodin Python-kirjasto, joka tarjoaa kattavan joukon työkaluja PDF-tiedostojen käsittelyyn. PyMuPDF:n avulla käyttäjät voivat tehokkaasti suorittaa tehtäviä, kuten avata PDF-tiedostoja, poimia tekstiä, kuvia ja taulukoita, manipuloida sivun ominaisuuksia, kuten kiertoa ja rajausta, luoda uusia PDF-dokumentteja ja muuntaa PDF-sivuja kuviksi.

PyMuPDF tukee useita alla lueteltuja ominaisuuksia:

  • PDF-dokumenttien lukeminen: PyMuPDF voi avata ja lukea PDF-dokumentteja, jolloin voit käyttää niissä olevaa tekstiä, kuvia ja muuta sisältöä.
  • Tekstin purkaminen: Voit poimia PDF-dokumenteista tekstiä, mukaan lukien tekstisisältöä, fontteja ja asettelutietoja.
  • Kuvien purkaminen: Voit poimia PDF-dokumenteista kuvia eri muodoissa, kuten JPEG tai PNG.
  • Taulukon purkaminen: Voit myös poimia taulukoita PDF-dokumenteista.

Tässä katsauksessa keskitymme ensisijaisesti kirjaston purkamis- ja jäsennysominaisuuksiin. Jos haluat perusteellisen arvion jakamis-, yhdistämis- ja sivunhallintaominaisuuksista, napsauta tätä.

GitHub

GitHub-tilastot

Nimi:
Kieli:
Tähdet:
Haarukat:
Lisenssi:
Arkisto päivitettiin viimeksi klo

PyMuPDF:n käytön aloittaminen

Tarvitset Python-version 3.8.0 tai uudemman PyMuPDF:n asentamiseen ja käyttämiseen. Joten asenna ensin Python ja asenna sitten PyMuPDF koneellesi alla olevien komentojen avulla käyttämällä pip ja virtuaaliympäristö.

Linux


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Mac käyttöjärjestelmä


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Windows


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf  

Poimi teksti PDF-tiedostosta

Pythonin PyMuPDF-kirjaston avulla voit poimia tekstiä PDF-dokumentista ja suorittaa tekstianalyysiä, kuten laskea sanoja, vain käyttämällä kirjaston toimintoja alla olevan koodin mukaisesti:

Alla olevassa kuvassa näkyy poimittu teksti ja sanojen määrä PDF-tiedostossa:

Pura kuvat PDF-tiedostosta

PyMuPDF-kirjaston avulla voimme poimia kuvia PDF-dokumentista Pythonissa. Alla oleva koodinpätkä avaa määritetyn PDF-tiedoston, poimii kuvat PDF-tiedostosta ja tallentaa ne nykyiseen työhakemistoon:

Seuraavassa on PDF-dokumentista poimittu PNG-kuva

Pura taulukot PDF-tiedostosta

PyMuPDF-kirjaston avulla voimme myös käsitellä PDF-dokumentteja ja poimia siitä taulukoita. Tarkista alla oleva koodinpätkä, joka avaa määritetyn PDF-tiedoston ja poimii taulukot PDF-dokumentista:

Alla kuvakaappaus näyttää PDF-dokumentista poimitun taulukon:

Lisää teksti PDF-tiedostoon

Alla Python-koodinpätkä osoittaa PyMuPDF-kirjaston käytön tekstin lisäämiseen PDF-tiedostoon ja muokatun PDF-tiedoston tallentamiseen text.pdf-muodossa:

Yllä olevalla koodilla lisätty teksti on korostettu alla olevassa punaisessa laatikossa:

PDF-tekstin tunnistus käyttämällä OCR:ää PyMuPDF:n kanssa

We will perform OCR on the PDF file containing the following image:

Alla olevassa kuvassa näkyy mukana toimitetussa PDF-tiedostossa olevasta kuvasta poimittu teksti:

Johtopäätös

Yhteenvetona PyMuPDF on ammattimainen työkalu, jolla on selkeitä vahvuuksia ja heikkouksia. Se sopii erinomaisesti tehtäviin, kuten OCR ja tekstin purkaminen, mikä tekee siitä arvokkaan PDF-tiedostojen tekstin käsittelyyn.

Se ei kuitenkaan ole niin hyvä poimimaan taulukoita PDF-tiedostoista, varsinkin kun PDF-tiedostoilla on monimutkainen rakenne tai enemmän sivuja, mikä saattaa olla haitta joillekin käyttäjille. Tietyissä tilanteissa se voi myös vaatia lisäkirjastoja, kuten Pandas- ja Tesseract OCR -kielidatatiedostoja, mikä lisää sen käyttöä monimutkaisemmin. Näistä rajoituksista huolimatta PyMuPDF on edelleen vankka valinta PDF-tiedostojen tekstin käsittelyyn.

Samankaltaisia Tuotteita

 Finnish