Atvērtā pirmkoda Python PDF parsētāja bibliotēka

Izmēģiniet šo bezmaksas un atvērtā avota Python bibliotēku, lai parsētu, lasītu un izvilktu tekstu, attēlus, tabulas un citu saturu no PDF dokumentiem.

Kas ir PyMuPDF?

PyMuPDF, kas pazīstams arī kā Fitz, ir atvērtā pirmkoda Python bibliotēka, kas nodrošina visaptverošu rīku komplektu darbam ar PDF failiem. Izmantojot PyMuPDF, lietotāji var efektīvi veikt tādus uzdevumus kā PDF failu atvēršana, teksta, attēlu un tabulu izvilkšana, manipulācijas ar lapas rekvizītiem, piemēram, pagriešana un apgriešana, jaunu PDF dokumentu izveide un PDF lapu pārvēršana attēlos.

PyMuPDF atbalsta vairākas funkcijas, kas ir uzskaitītas zemāk:

PDF dokumentu lasīšana: PyMuPDF var atvērt un lasīt PDF dokumentus, ļaujot piekļūt tekstam, attēliem un citam saturam tajos.
Teksta izvilkšana: no PDF dokumentiem varat izvilkt tekstu, tostarp teksta saturu, fontus un izkārtojuma informāciju.
Attēlu izvilkšana: varat izvilkt attēlus no PDF dokumentiem dažādos formātos, piemēram, JPEG vai PNG.
Tabulu izvilkšana: varat arī izvilkt tabulas no PDF dokumentiem.

Šajā pārskatā mūsu galvenā uzmanība tiks pievērsta bibliotēkas ekstrakcijas un parsēšanas funkcijām. Lai padziļināti novērtētu sadalīšanas, sapludināšanas un lapu pārvaldības funkcijas, lūdzu, noklikšķiniet šeit.

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

Darba sākšana ar PyMuPDF

Lai instalētu un izmantotu PyMuPDF, nepieciešama Python versija 3.8.0 vai jaunāka versija. Tāpēc vispirms instalējiet Python un pēc tam izmantojiet tālāk norādītās komandas, lai instalētu PyMuPDF savā datorā, izmantojot pip un virtuālā vide.

Linux


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

MacOS


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Windows


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf

Izvilkt tekstu no PDF

Varat izmantot PyMuPDF bibliotēku programmā Python, lai izvilktu tekstu no PDF dokumenta un veiktu teksta analīzi, piemēram, vārdu skaitīšanu, tikai izmantojot bibliotēkā nodrošinātās funkcijas, kā parādīts tālāk esošajā kodā:

Tālāk esošajā attēlā ir parādīts izvilktais teksts un vārdu skaits PDF failā:

Izņemiet attēlus no PDF

Mēs varam izmantot PyMuPDF bibliotēku, lai iegūtu attēlus no PDF dokumenta Python. Zemāk redzamais koda fragments atver norādīto PDF failu, izvelk attēlus no PDF un saglabā tos pašreizējā darba direktorijā:

Tālāk ir parādīts PNG attēls, kas iegūts no PDF dokumenta

Izvilkt tabulas no PDF

Mēs varam arī izmantot PyMuPDF bibliotēku, lai apstrādātu PDF dokumentu un izvilktu no tā tabulas. Pārbaudiet tālāk norādīto koda fragmentu, kas atver norādīto PDF failu un izvelk tabulas no PDF dokumenta:

Zemāk redzamajā ekrānuzņēmumā redzama tabula, kas iegūta no PDF dokumenta:

Ievietot tekstu PDF failā

Tālāk Python koda fragments parāda PyMuPDF bibliotēkas izmantošanu teksta ievietošanai PDF failā un modificētā PDF faila saglabāšanai kā text.pdf.

Teksts, kas ievietots, izmantojot iepriekš minēto kodu, ir iezīmēts tālāk norādītajā sarkanajā lodziņā:

PDF teksta atpazīšana, izmantojot OCR ar PyMuPDF

We will perform OCR on the PDF file containing the following image:

Tālāk esošajā attēlā redzams teksts, kas iegūts no sniegtajā PDF failā esošā attēla:

Secinājums

Rezumējot, PyMuPDF ir profesionāls rīks ar dažām skaidrām stiprajām un vājajām pusēm. Tas ir lieliski piemērots tādiem uzdevumiem kā OCR un teksta izvilkšana, kas padara to vērtīgu teksta apstrādei PDF failos.

Tomēr nav tik labi izvilkt tabulas no PDF failiem, jo īpaši, ja PDF failiem ir sarežģīta struktūra vai lielāks lapu skaits, kas dažiem lietotājiem var būt trūkums. Turklāt noteiktās situācijās var būt nepieciešamas papildu bibliotēkas, piemēram, Pandas un Tesseract OCR valodas datu faili, padarot tā lietošanu sarežģītāku. Neskatoties uz šiem ierobežojumiem, PyMuPDF joprojām ir lieliska izvēle darbam ar tekstu PDF failos.