Leabharlann Parsálaí Python PDF Foinse Oscailte
Bain triail as an leabharlann Foinse Python seo atá in aisce agus oscailte chun téacs, íomhánna, táblaí & ábhar eile a pharsáil, a léamh agus a bhaint as doiciméid PDF.
Cad é PyMuPDF?
Is leabharlann Python foinse oscailte é PyMuPDF, ar a dtugtar Fitz freisin, a sholáthraíonn sraith chuimsitheach uirlisí chun oibriú le comhaid PDF. Le PyMuPDF, is féidir le húsáideoirí tascanna a dhéanamh go héifeachtach mar PDFs a oscailt, téacs, íomhánna agus táblaí a bhaint, airíonna leathanaigh a ionramháil mar rothlú agus bearradh, doiciméid PDF nua a chruthú, agus leathanaigh PDF a thiontú ina n-íomhánna.
Tacaíonn PyMuPDF le roinnt gnéithe atá liostaithe thíos:
- Léamh Doiciméad PDF: Is féidir le PyMuPDF doiciméid PDF a oscailt agus a léamh, rud a ligeann duit rochtain a fháil ar an téacs, íomhánna agus ábhar eile laistigh díobh.
- Eastóscadh Téacs: Is féidir leat téacs a bhaint as doiciméid PDF, lena n-áirítear ábhar téacs, clónna agus faisnéis maidir le leagan amach.
- Eastú Íomhá: Is féidir leat íomhánna a bhaint as doiciméid PDF i bhformáidí éagsúla, mar shampla JPEG nó PNG.
- Eastarraingt Tábla: Is féidir leat táblaí a bhaint as doiciméid PDF freisin.
San athbhreithniú seo, díreofar go príomha ar ghnéithe asbhainte agus parsála na leabharlainne. Le haghaidh meastóireacht dhomhain ar ghnéithe scoilte, chumaisc & bhainistiú leathanaigh, cliceáil anseo le do thoil.
Tús a chur le PyMuPDF
Teastaíonn uait Python leagan 3.8.0 nó níos airde chun PyMuPDF a shuiteáil agus a úsáid. Mar sin, suiteáil Python ar dtús agus ansin úsáid na horduithe thíos chun PyMuPDF a shuiteáil ar do mheaisín ag baint úsáide as pip agus timpeallacht fhíorúil.
Linux
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
MacOS
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Windows
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
Sliocht téacs ó pdf
Is féidir leat an leabharlann PyMuPDF i Python a úsáid chun téacs a bhaint as doiciméad PDF agus anailís téacs a dhéanamh, mar fhocail a chomhaireamh, díreach trí na feidhmeanna a sholáthraítear sa leabharlann a úsáid, mar a thaispeántar sa chód thíos:
Taispeánann an íomhá thíos an téacs asbhainte agus líon na bhfocal sa chomhad PDF:
Sliocht íomhánna ó pdf
Is féidir linn leabharlann PyMuPDF a úsáid chun íomhánna a bhaint as doiciméad PDF i Python. Osclaítear an comhad PDF sonraithe thíos, baintear íomhánna as an PDF agus sábhálann sé iad san eolaire oibre reatha:
Seo a leanas an Íomhá PNG a bhaintear as an doiciméad PDF
Sliocht táblaí ó pdf
Is féidir linn leabharlann PyMuPDF a úsáid freisin chun doiciméad PDF a phróiseáil agus táblaí a bhaint aisti. Seiceáil thíos blúire cód a osclaíonn an comhad PDF sonraithe agus a bhaintear táblaí as an doiciméad PDF:
Taispeánann an scáileáin thíos an tábla a bhaintear as an doiciméad PDF:
Téacs a chur isteach i bhformáid pdf
Léirítear thíos an mhír chóid Python gur úsáideadh leabharlann PyMuPDF chun téacs a chur isteach i gcomhad PDF agus chun an PDF mionathraithe a shábháil mar text.pdf:
Aibhsítear an téacs a cuireadh isteach leis an gcód thuas sa bhosca dearg thíos:
Aitheantas Téacs PDF ag baint úsáide as OCR le PyMuPDF
We will perform OCR on the PDF file containing the following image:Taispeánann an íomhá thíos an téacs a bhaintear as an íomhá atá i láthair sa chomhad PDF a cuireadh ar fáil:
Conclúid
Go hachomair, is uirlis ghairmiúil é PyMuPDF le roinnt láidreachtaí agus laigí soiléire. Tá sé iontach do thascanna cosúil le OCR agus eastóscadh téacs a fhágann go bhfuil sé luachmhar chun téacs a láimhseáil i bhformáid PDF.
Mar sin féin, níl sé chomh maith ag baint le táblaí ó PDFanna go speisialta nuair a bhíonn struchtúr casta nó líon níos mó leathanach ag PDFanna, rud a d'fhéadfadh a bheith ina míbhuntáiste do roinnt úsáideoirí. Chomh maith leis sin, d’fhéadfadh go mbeadh leabharlanna breise ag teastáil uaidh amhail comhaid sonraí teanga Pandas agus Tesseract OCR i gcásanna áirithe, rud a chuirfeadh castacht lena húsáid. In ainneoin na dteorainneacha seo, tá PyMuPDF fós ina rogha láidir chun oibriú le téacs i bhformáid PDF.