Atvērtā pirmkoda Python PDF parsētāja bibliotēka
Izmēģiniet šo bezmaksas un atvērtā avota Python bibliotēku, lai parsētu, lasītu un izvilktu tekstu, attēlus, tabulas un citu saturu no PDF dokumentiem.
Kas ir PyMuPDF?
PyMuPDF, kas pazīstams arī kā Fitz, ir atvērtā pirmkoda Python bibliotēka, kas nodrošina visaptverošu rīku komplektu darbam ar PDF failiem. Izmantojot PyMuPDF, lietotāji var efektīvi veikt tādus uzdevumus kā PDF failu atvēršana, teksta, attēlu un tabulu izvilkšana, manipulācijas ar lapas rekvizītiem, piemēram, pagriešana un apgriešana, jaunu PDF dokumentu izveide un PDF lapu pārvēršana attēlos.
PyMuPDF atbalsta vairākas funkcijas, kas ir uzskaitītas zemāk:
- PDF dokumentu lasīšana: PyMuPDF var atvērt un lasīt PDF dokumentus, ļaujot piekļūt tekstam, attēliem un citam saturam tajos.
- Teksta izvilkšana: no PDF dokumentiem varat izvilkt tekstu, tostarp teksta saturu, fontus un izkārtojuma informāciju.
- Attēlu izvilkšana: varat izvilkt attēlus no PDF dokumentiem dažādos formātos, piemēram, JPEG vai PNG.
- Tabulu izvilkšana: varat arī izvilkt tabulas no PDF dokumentiem.
Šajā pārskatā mūsu galvenā uzmanība tiks pievērsta bibliotēkas ekstrakcijas un parsēšanas funkcijām. Lai padziļināti novērtētu sadalīšanas, sapludināšanas un lapu pārvaldības funkcijas, lūdzu, noklikšķiniet šeit.
Darba sākšana ar PyMuPDF
Lai instalētu un izmantotu PyMuPDF, nepieciešama Python versija 3.8.0 vai jaunāka versija. Tāpēc vispirms instalējiet Python un pēc tam izmantojiet tālāk norādītās komandas, lai instalētu PyMuPDF savā datorā, izmantojot pip un virtuālā vide.
Linux
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
MacOS
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Windows
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
Izvilkt tekstu no PDF
Varat izmantot PyMuPDF bibliotēku programmā Python, lai izvilktu tekstu no PDF dokumenta un veiktu teksta analīzi, piemēram, vārdu skaitīšanu, tikai izmantojot bibliotēkā nodrošinātās funkcijas, kā parādīts tālāk esošajā kodā:
Tālāk esošajā attēlā ir parādīts izvilktais teksts un vārdu skaits PDF failā:
Izņemiet attēlus no PDF
Mēs varam izmantot PyMuPDF bibliotēku, lai iegūtu attēlus no PDF dokumenta Python. Zemāk redzamais koda fragments atver norādīto PDF failu, izvelk attēlus no PDF un saglabā tos pašreizējā darba direktorijā:
Tālāk ir parādīts PNG attēls, kas iegūts no PDF dokumenta
Izvilkt tabulas no PDF
Mēs varam arī izmantot PyMuPDF bibliotēku, lai apstrādātu PDF dokumentu un izvilktu no tā tabulas. Pārbaudiet tālāk norādīto koda fragmentu, kas atver norādīto PDF failu un izvelk tabulas no PDF dokumenta:
Zemāk redzamajā ekrānuzņēmumā redzama tabula, kas iegūta no PDF dokumenta:
Ievietot tekstu PDF failā
Tālāk Python koda fragments parāda PyMuPDF bibliotēkas izmantošanu teksta ievietošanai PDF failā un modificētā PDF faila saglabāšanai kā text.pdf.
Teksts, kas ievietots, izmantojot iepriekš minēto kodu, ir iezīmēts tālāk norādītajā sarkanajā lodziņā:
PDF teksta atpazīšana, izmantojot OCR ar PyMuPDF
We will perform OCR on the PDF file containing the following image:Tālāk esošajā attēlā redzams teksts, kas iegūts no sniegtajā PDF failā esošā attēla:
Secinājums
Rezumējot, PyMuPDF ir profesionāls rīks ar dažām skaidrām stiprajām un vājajām pusēm. Tas ir lieliski piemērots tādiem uzdevumiem kā OCR un teksta izvilkšana, kas padara to vērtīgu teksta apstrādei PDF failos.
Tomēr nav tik labi izvilkt tabulas no PDF failiem, jo īpaši, ja PDF failiem ir sarežģīta struktūra vai lielāks lapu skaits, kas dažiem lietotājiem var būt trūkums. Turklāt noteiktās situācijās var būt nepieciešamas papildu bibliotēkas, piemēram, Pandas un Tesseract OCR valodas datu faili, padarot tā lietošanu sarežģītāku. Neskatoties uz šiem ierobežojumiem, PyMuPDF joprojām ir lieliska izvēle darbam ar tekstu PDF failos.