Leabharlann Parsálaí Python PDF Foinse Oscailte
Leabharlann Python saor in aisce agus foinse oscailte chun PDFanna a pharsáil agus téacs a bhaint le faisnéis formáidithe.
Cad é pdfminer.six?
Is leabharlann agus tacar uirlisí Python foinse oscailte é Pdfminer.six chun sonraí a bhaint as doiciméid PDF. Is féidir leat doiciméid PDF a pharsáil agus téacs, clár na n-ábhar & ábhar clibeáilte srl. a bhaint as PDF chun anailís a dhéanamh ar shonraí.
Seo liosta gairid dá ghnéithe parsála:
- Sliocht Téacs:Sliocht ábhar téacs ó dhoiciméid PDF lena n-áirítear faisnéis maidir le leagan amach agus formáidiú amhail dath an téacs, cló agus suíomh srl.
- Eastú Faisnéise Cló: Sliocht faisnéis faoi na clónna a úsáidtear i ndoiciméid PDF.
Tús a chur le pdfminer.six
Teastaíonn uait Python leagan 3.6.0 nó níos airde chun pypdf a shuiteáil agus a úsáid. Mar sin, suiteáil Python ar dtús agus ansin úsáid na horduithe thíos chun pypdf a shuiteáil ar do mheaisín ag baint úsáide as pip agus timpeallacht fhíorúil.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Sliocht téacs ó doiciméad pdf
Is féidir leat an leabharlann pdfminer.six a úsáid i Python chun téacs a bhaint as doiciméad PDF tríd an bhfeidhm extract_text a úsáid mar a thaispeántar sa bhlúire cód thíos:
Taispeánann an screenshot seo a leanas an téacs a bhaintear as an doiciméad PDF:
Sliocht Eolas Cló Ó Dhoiciméad PDF
Is féidir linn an t-eolas faoi na clónna a úsáidtear sa Cháipéis PDF a bhaint freisin, mar shampla ainm an chló agus méid an chló, trí eilimintí leagan amach gach leathanaigh sa PDF a atriall. Mar shampla, seiceáil thíos blúire cód:
Taispeánann an screenshot seo a leanas an t-eolas cló a bhaintear as an doiciméad PDF:
Conclúid
Mar fhocal scoir, tá cumas ag pdfminer.six téacs agus faisnéis eile a bhaint as doiciméid PDF ach níl feidhmiúlachtaí ann mar íomhánna agus táblaí a bhaint as PDFs.
Tá sé tábhachtach a thabhairt faoi deara go dtacaíonn leabharlann pdfminer.six le leathanaigh PDF a bhaint mar íomhánna ach tá sé difriúil ó íomhánna atá leabaithe sna doiciméid PDF a bhaint nach dtacaíonn pdfminer.six leo. Mar sin féin, is féidir le forbróirí brath air fós chun PDFanna a pharsáil i Python chun téacs a bhaint as a gcuid riachtanas anailíse sonraí.