Avoimen lähdekoodin Python PDF Parser Library

Ilmainen ja avoimen lähdekoodin Python-kirjasto PDF-tiedostojen jäsentämiseen ja tekstin purkamiseen muotoilutiedoilla.

Mikä on pdfminer.six?

Pdfminer.six on avoimen lähdekoodin Python-kirjasto ja työkalusarja tietojen poimimiseen PDF-dokumenteista. Voit jäsentää PDF-dokumentteja ja poimia PDF-tiedostoista tekstiä, sisällysluetteloa ja merkittyä sisältöä jne. tietojen analysointia varten.

Tässä on lyhyt luettelo sen jäsennysominaisuuksista:

Tekstin purkaminen: poimia tekstisisältöä PDF-dokumenteista, mukaan lukien asettelu- ja muotoilutiedot, kuten tekstin väri, fontti ja sijainti jne.
Fonttitietojen purkaminen: Poimi tiedot PDF-dokumenteissa käytetyistä fonteista.

GitHub-tilastot

Nimi:
Kieli:
Tähdet:
Haarukat:
Lisenssi:
Arkisto päivitettiin viimeksi klo

pdfminer.six:n käytön aloittaminen

Tarvitset Python-version 3.6.0 tai uudemman pypdf:n asentamiseen ja käyttämiseen. Joten asenna ensin Python ja asenna sitten pypdf koneellesi alla olevien komentojen avulla käyttämällä pip ja virtuaaliympäristö.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

Mac käyttöjärjestelmä


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Pura teksti PDF-dokumentista

Pythonin pdfminer.six-kirjaston avulla voit poimia tekstiä PDF-dokumentista käyttämällä extract_text-toimintoa alla olevan koodinpätkän mukaisesti:

Seuraavassa kuvakaappauksessa näkyy PDF-dokumentista poimittu teksti:

Pura fonttitiedot PDF-dokumentista

Voimme myös poimia tiedot PDF-dokumentissa käytetyistä fonteista, kuten fontin nimen ja kirjasinkoon iteroimalla PDF-tiedoston jokaisen sivun asetteluelementtejä. Tarkista esimerkiksi alla oleva koodinpätkä:

Seuraavassa kuvakaappauksessa näkyy PDF-dokumentista poimitut fonttitiedot:

Johtopäätös

Yhteenvetona voidaan todeta, että pdfminer.six pystyy poimimaan tekstiä ja muuta tietoa PDF-dokumenteista, mutta siitä puuttuu toimintoja, kuten kuvien ja taulukoiden poimiminen PDF-tiedostoista.

On tärkeää huomata, että pdfminer.six-kirjasto tukee PDF-sivujen purkamista kuvina, mutta se eroaa PDF-dokumentteihin upotettujen kuvien purkamisesta, jota pdfminer.six ei tue. Kehittäjät voivat kuitenkin edelleen luottaa siihen PDF-tiedostojen jäsentämiseen Pythonissa poimiakseen tekstiä data-analyysitarpeisiinsa.