Avoimen lähdekoodin Python PDF Parser Library
Ilmainen ja avoimen lähdekoodin Python-kirjasto PDF-tiedostojen jäsentämiseen ja tekstin purkamiseen muotoilutiedoilla.
Mikä on pdfminer.six?
Pdfminer.six on avoimen lähdekoodin Python-kirjasto ja työkalusarja tietojen poimimiseen PDF-dokumenteista. Voit jäsentää PDF-dokumentteja ja poimia PDF-tiedostoista tekstiä, sisällysluetteloa ja merkittyä sisältöä jne. tietojen analysointia varten.
Tässä on lyhyt luettelo sen jäsennysominaisuuksista:
- Tekstin purkaminen: poimia tekstisisältöä PDF-dokumenteista, mukaan lukien asettelu- ja muotoilutiedot, kuten tekstin väri, fontti ja sijainti jne.
- Fonttitietojen purkaminen: Poimi tiedot PDF-dokumenteissa käytetyistä fonteista.
pdfminer.six:n käytön aloittaminen
Tarvitset Python-version 3.6.0 tai uudemman pypdf:n asentamiseen ja käyttämiseen. Joten asenna ensin Python ja asenna sitten pypdf koneellesi alla olevien komentojen avulla käyttämällä pip ja virtuaaliympäristö.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
Mac käyttöjärjestelmä
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Pura teksti PDF-dokumentista
Pythonin pdfminer.six-kirjaston avulla voit poimia tekstiä PDF-dokumentista käyttämällä extract_text-toimintoa alla olevan koodinpätkän mukaisesti:
Seuraavassa kuvakaappauksessa näkyy PDF-dokumentista poimittu teksti:
Pura fonttitiedot PDF-dokumentista
Voimme myös poimia tiedot PDF-dokumentissa käytetyistä fonteista, kuten fontin nimen ja kirjasinkoon iteroimalla PDF-tiedoston jokaisen sivun asetteluelementtejä. Tarkista esimerkiksi alla oleva koodinpätkä:
Seuraavassa kuvakaappauksessa näkyy PDF-dokumentista poimitut fonttitiedot:
Johtopäätös
Yhteenvetona voidaan todeta, että pdfminer.six pystyy poimimaan tekstiä ja muuta tietoa PDF-dokumenteista, mutta siitä puuttuu toimintoja, kuten kuvien ja taulukoiden poimiminen PDF-tiedostoista.
On tärkeää huomata, että pdfminer.six-kirjasto tukee PDF-sivujen purkamista kuvina, mutta se eroaa PDF-dokumentteihin upotettujen kuvien purkamisesta, jota pdfminer.six ei tue. Kehittäjät voivat kuitenkin edelleen luottaa siihen PDF-tiedostojen jäsentämiseen Pythonissa poimiakseen tekstiä data-analyysitarpeisiinsa.