1. Products
  2.   Parser
  3.   Python
  4.   PyMuPDF
 
  

Leabharlann Parsálaí Python PDF Foinse Oscailte

Bain triail as an leabharlann Foinse Python seo atá in aisce agus oscailte chun téacs, íomhánna, táblaí & ábhar eile a pharsáil, a léamh agus a bhaint as doiciméid PDF.

Cad é PyMuPDF?

Is leabharlann Python foinse oscailte é PyMuPDF, ar a dtugtar Fitz freisin, a sholáthraíonn sraith chuimsitheach uirlisí chun oibriú le comhaid PDF. Le PyMuPDF, is féidir le húsáideoirí tascanna a dhéanamh go héifeachtach mar PDFs a oscailt, téacs, íomhánna agus táblaí a bhaint, airíonna leathanaigh a ionramháil mar rothlú agus bearradh, doiciméid PDF nua a chruthú, agus leathanaigh PDF a thiontú ina n-íomhánna.

Tacaíonn PyMuPDF le roinnt gnéithe atá liostaithe thíos:

  • Léamh Doiciméad PDF: Is féidir le PyMuPDF doiciméid PDF a oscailt agus a léamh, rud a ligeann duit rochtain a fháil ar an téacs, íomhánna agus ábhar eile laistigh díobh.
  • Eastóscadh Téacs: Is féidir leat téacs a bhaint as doiciméid PDF, lena n-áirítear ábhar téacs, clónna agus faisnéis maidir le leagan amach.
  • Eastú Íomhá: Is féidir leat íomhánna a bhaint as doiciméid PDF i bhformáidí éagsúla, mar shampla JPEG nó PNG.
  • Eastarraingt Tábla: Is féidir leat táblaí a bhaint as doiciméid PDF freisin.

San athbhreithniú seo, díreofar go príomha ar ghnéithe asbhainte agus parsála na leabharlainne. Le haghaidh meastóireacht dhomhain ar ghnéithe scoilte, chumaisc & bhainistiú leathanaigh, cliceáil anseo le do thoil.

GitHub

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

Tús a chur le PyMuPDF

Teastaíonn uait Python leagan 3.8.0 nó níos airde chun PyMuPDF a shuiteáil agus a úsáid. Mar sin, suiteáil Python ar dtús agus ansin úsáid na horduithe thíos chun PyMuPDF a shuiteáil ar do mheaisín ag baint úsáide as pip agus timpeallacht fhíorúil.

Linux


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

MacOS


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Windows


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf  

Sliocht téacs ó pdf

Is féidir leat an leabharlann PyMuPDF i Python a úsáid chun téacs a bhaint as doiciméad PDF agus anailís téacs a dhéanamh, mar fhocail a chomhaireamh, díreach trí na feidhmeanna a sholáthraítear sa leabharlann a úsáid, mar a thaispeántar sa chód thíos:

Taispeánann an íomhá thíos an téacs asbhainte agus líon na bhfocal sa chomhad PDF:

Sliocht íomhánna ó pdf

Is féidir linn leabharlann PyMuPDF a úsáid chun íomhánna a bhaint as doiciméad PDF i Python. Osclaítear an comhad PDF sonraithe thíos, baintear íomhánna as an PDF agus sábhálann sé iad san eolaire oibre reatha:

Seo a leanas an Íomhá PNG a bhaintear as an doiciméad PDF

Sliocht táblaí ó pdf

Is féidir linn leabharlann PyMuPDF a úsáid freisin chun doiciméad PDF a phróiseáil agus táblaí a bhaint aisti. Seiceáil thíos blúire cód a osclaíonn an comhad PDF sonraithe agus a bhaintear táblaí as an doiciméad PDF:

Taispeánann an scáileáin thíos an tábla a bhaintear as an doiciméad PDF:

Téacs a chur isteach i bhformáid pdf

Léirítear thíos an mhír chóid Python gur úsáideadh leabharlann PyMuPDF chun téacs a chur isteach i gcomhad PDF agus chun an PDF mionathraithe a shábháil mar text.pdf:

Aibhsítear an téacs a cuireadh isteach leis an gcód thuas sa bhosca dearg thíos:

Aitheantas Téacs PDF ag baint úsáide as OCR le PyMuPDF

We will perform OCR on the PDF file containing the following image:

Taispeánann an íomhá thíos an téacs a bhaintear as an íomhá atá i láthair sa chomhad PDF a cuireadh ar fáil:

Conclúid

Go hachomair, is uirlis ghairmiúil é PyMuPDF le roinnt láidreachtaí agus laigí soiléire. Tá sé iontach do thascanna cosúil le OCR agus eastóscadh téacs a fhágann go bhfuil sé luachmhar chun téacs a láimhseáil i bhformáid PDF.

Mar sin féin, níl sé chomh maith ag baint le táblaí ó PDFanna go speisialta nuair a bhíonn struchtúr casta nó líon níos mó leathanach ag PDFanna, rud a d'fhéadfadh a bheith ina míbhuntáiste do roinnt úsáideoirí. Chomh maith leis sin, d’fhéadfadh go mbeadh leabharlanna breise ag teastáil uaidh amhail comhaid sonraí teanga Pandas agus Tesseract OCR i gcásanna áirithe, rud a chuirfeadh castacht lena húsáid. In ainneoin na dteorainneacha seo, tá PyMuPDF fós ina rogha láidir chun oibriú le téacs i bhformáid PDF.

Similar Products

 Gaeilge