1. Products
  2.   Parser
  3.   Python
  4.   pdfminer.six
 
  

Atvērtā pirmkoda Python PDF parsētāja bibliotēka

Bezmaksas un atvērtā pirmkoda Python bibliotēka, lai parsētu PDF failus un izvilktu tekstu ar formatēšanas informāciju.

Kas ir pdfminer.six?

Pdfminer.six ir atvērtā pirmkoda Python bibliotēka un rīku kopa datu ieguvei no PDF dokumentiem. Varat parsēt PDF dokumentus un izvilkt tekstu, satura rādītāju un atzīmēto saturu utt. no PDF failiem datu analīzei.

Šeit ir īss tās parsēšanas funkciju saraksts:

  • Teksta izvilkšana: izņemiet teksta saturu no PDF dokumentiem, tostarp izkārtojuma un formatēšanas informāciju, piemēram, teksta krāsu, fontu un atrašanās vietu utt.
  • Fontu informācijas izvilkšana: izvelciet informāciju par PDF dokumentos izmantotajiem fontiem.
GitHub

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

Darba sākšana ar pdfminer.six

Lai instalētu un izmantotu pypdf, nepieciešama Python versija 3.6.0 vai jaunāka versija. Tāpēc vispirms instalējiet Python un pēc tam izmantojiet tālāk norādītās komandas, lai instalētu pypdf savā datorā, izmantojot pip un virtuālā vide.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Izvilkt tekstu no PDF dokumenta

Varat izmantot Python bibliotēku pdfminer.six, lai izvilktu tekstu no PDF dokumenta, izmantojot funkciju extract_text, kā parādīts tālāk esošajā koda fragmentā.

Šis ekrānuzņēmums parāda no PDF dokumenta izvilkto tekstu:

Izņemiet fonta informāciju no PDF dokumenta

Mēs varam arī iegūt informāciju par PDF dokumentā izmantotajiem fontiem, piemēram, fonta nosaukumu un fonta lielumu, atkārtojot katras PDF lapas izkārtojuma elementus. Piemēram, pārbaudiet tālāk norādīto koda fragmentu:

Šis ekrānuzņēmums parāda fonta informāciju, kas iegūta no PDF dokumenta:

Secinājums

Visbeidzot, pdfminer.six spēj izvilkt tekstu un citu informāciju no PDF dokumentiem, taču tai trūkst tādu funkciju kā attēlu un tabulu izvilkšana no PDF failiem.

Ir svarīgi atzīmēt, ka pdfminer.six bibliotēka atbalsta PDF lapu izvilkšanu kā attēlus, taču tā atšķiras no PDF dokumentos iegulto attēlu izvilkšanas, ko neatbalsta pdfminer.six. Tomēr izstrādātāji joprojām var paļauties uz to, parsējot PDF failus programmā Python, lai iegūtu tekstu savām datu analīzes vajadzībām.

Similar Products

 Latvian