1. Products
  2.   Parser
  3.   Python
  4.   pdfminer.six
 
  

Leabharlann Parsálaí Python PDF Foinse Oscailte

Leabharlann Python saor in aisce agus foinse oscailte chun PDFanna a pharsáil agus téacs a bhaint le faisnéis formáidithe.

Cad é pdfminer.six?

Is leabharlann agus tacar uirlisí Python foinse oscailte é Pdfminer.six chun sonraí a bhaint as doiciméid PDF. Is féidir leat doiciméid PDF a pharsáil agus téacs, clár na n-ábhar & ábhar clibeáilte srl. a bhaint as PDF chun anailís a dhéanamh ar shonraí.

Seo liosta gairid dá ghnéithe parsála:

  • Sliocht Téacs:Sliocht ábhar téacs ó dhoiciméid PDF lena n-áirítear faisnéis maidir le leagan amach agus formáidiú amhail dath an téacs, cló agus suíomh srl.
  • Eastú Faisnéise Cló: Sliocht faisnéis faoi na clónna a úsáidtear i ndoiciméid PDF.
GitHub

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

Tús a chur le pdfminer.six

Teastaíonn uait Python leagan 3.6.0 nó níos airde chun pypdf a shuiteáil agus a úsáid. Mar sin, suiteáil Python ar dtús agus ansin úsáid na horduithe thíos chun pypdf a shuiteáil ar do mheaisín ag baint úsáide as pip agus timpeallacht fhíorúil.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Sliocht téacs ó doiciméad pdf

Is féidir leat an leabharlann pdfminer.six a úsáid i Python chun téacs a bhaint as doiciméad PDF tríd an bhfeidhm extract_text a úsáid mar a thaispeántar sa bhlúire cód thíos:

Taispeánann an screenshot seo a leanas an téacs a bhaintear as an doiciméad PDF:

Sliocht Eolas Cló Ó Dhoiciméad PDF

Is féidir linn an t-eolas faoi na clónna a úsáidtear sa Cháipéis PDF a bhaint freisin, mar shampla ainm an chló agus méid an chló, trí eilimintí leagan amach gach leathanaigh sa PDF a atriall. Mar shampla, seiceáil thíos blúire cód:

Taispeánann an screenshot seo a leanas an t-eolas cló a bhaintear as an doiciméad PDF:

Conclúid

Mar fhocal scoir, tá cumas ag pdfminer.six téacs agus faisnéis eile a bhaint as doiciméid PDF ach níl feidhmiúlachtaí ann mar íomhánna agus táblaí a bhaint as PDFs.

Tá sé tábhachtach a thabhairt faoi deara go dtacaíonn leabharlann pdfminer.six le leathanaigh PDF a bhaint mar íomhánna ach tá sé difriúil ó íomhánna atá leabaithe sna doiciméid PDF a bhaint nach dtacaíonn pdfminer.six leo. Mar sin féin, is féidir le forbróirí brath air fós chun PDFanna a pharsáil i Python chun téacs a bhaint as a gcuid riachtanas anailíse sonraí.

Similar Products

 Gaeilge