Atvērtā pirmkoda Python PDF parsētāja bibliotēka
Bezmaksas un atvērtā pirmkoda Python bibliotēka, lai parsētu PDF failus un izvilktu tekstu ar formatēšanas informāciju.
Kas ir pdfminer.six?
Pdfminer.six ir atvērtā pirmkoda Python bibliotēka un rīku kopa datu ieguvei no PDF dokumentiem. Varat parsēt PDF dokumentus un izvilkt tekstu, satura rādītāju un atzīmēto saturu utt. no PDF failiem datu analīzei.
Šeit ir īss tās parsēšanas funkciju saraksts:
- Teksta izvilkšana: izņemiet teksta saturu no PDF dokumentiem, tostarp izkārtojuma un formatēšanas informāciju, piemēram, teksta krāsu, fontu un atrašanās vietu utt.
- Fontu informācijas izvilkšana: izvelciet informāciju par PDF dokumentos izmantotajiem fontiem.
Darba sākšana ar pdfminer.six
Lai instalētu un izmantotu pypdf, nepieciešama Python versija 3.6.0 vai jaunāka versija. Tāpēc vispirms instalējiet Python un pēc tam izmantojiet tālāk norādītās komandas, lai instalētu pypdf savā datorā, izmantojot pip un virtuālā vide.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Izvilkt tekstu no PDF dokumenta
Varat izmantot Python bibliotēku pdfminer.six, lai izvilktu tekstu no PDF dokumenta, izmantojot funkciju extract_text, kā parādīts tālāk esošajā koda fragmentā.
Šis ekrānuzņēmums parāda no PDF dokumenta izvilkto tekstu:
Izņemiet fonta informāciju no PDF dokumenta
Mēs varam arī iegūt informāciju par PDF dokumentā izmantotajiem fontiem, piemēram, fonta nosaukumu un fonta lielumu, atkārtojot katras PDF lapas izkārtojuma elementus. Piemēram, pārbaudiet tālāk norādīto koda fragmentu:
Šis ekrānuzņēmums parāda fonta informāciju, kas iegūta no PDF dokumenta:
Secinājums
Visbeidzot, pdfminer.six spēj izvilkt tekstu un citu informāciju no PDF dokumentiem, taču tai trūkst tādu funkciju kā attēlu un tabulu izvilkšana no PDF failiem.
Ir svarīgi atzīmēt, ka pdfminer.six bibliotēka atbalsta PDF lapu izvilkšanu kā attēlus, taču tā atšķiras no PDF dokumentos iegulto attēlu izvilkšanas, ko neatbalsta pdfminer.six. Tomēr izstrādātāji joprojām var paļauties uz to, parsējot PDF failus programmā Python, lai iegūtu tekstu savām datu analīzes vajadzībām.