Tiontú PDF go HTML/XML Leabharlann Python
Leabharlann Python saor in aisce agus foinse oscailte chun doiciméid PDF a thiontú go HTML & XML.
Cad é pdfminer.six?
Is leabharlann Python saor in aisce agus foinse oscailte é pdfminer.six is féidir a úsáid chun doiciméid PDF a thiontú go formáidí eile.
Seo liosta gairid dá phríomhghnéithe comhshó PDF:
- Tiontú PDF go HTML: Tiontaigh doiciméid PDF go formáid HTML agus struchtúr agus leagan amach an doiciméid á gcaomhnú.
- Tiontú PDF go XML: Claochlú comhaid PDF go formáid XML, gabháil leis na sonraí go léir, lena n-áirítear clónna agus gnéithe eile.
Tús a chur le pdfminer.six
Teastaíonn uait Python leagan 3.6.0 nó níos airde chun pypdf a shuiteáil agus a úsáid. Mar sin, suiteáil Python ar dtús agus ansin úsáid na horduithe thíos chun pypdf a shuiteáil ar do mheaisín ag baint úsáide as pip agus timpeallacht fhíorúil.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Tiontaigh HTML go PDF
Is féidir linn doiciméad PDF a thiontú go formáid HTML trí úsáid a bhaint as feidhm extract_text_to_fp na leabharlainne pdfminer.six (le cineál aschuir socraithe go html) a sholáthraíonn an leabharlann, mar a thaispeántar sa mhír cód thíos:
Taispeánann an screenshot seo a leanas an comhad HTML a ghintear tríd an soiciméad PDF a thiontú:
Pdf a thiontú go xml
Is féidir linn doiciméad PDF a thiontú go formáid XML freisin ag baint úsáide as an bhfeidhm chéanna extract_text_to_fp (ach leis an gcineál aschuir socraithe go xml) a sholáthraíonn an leabharlann, mar a thaispeántar sa mhír cód thíos:
Taispeánann an seat scáileáin seo a leanas an t-ábhar XML arna thiontú ón doiciméad PDF:
Conclúid
Go ginearálta, tacaíonn pdfminer.six le doiciméid PDF a thiontú go formáid XML gan aon saincheisteanna ach nuair a dhéantar iarracht PDF a thiontú go HTML, bainistíonn sé ábhar an téacs a aistriú ach is minic a chuireann isteach ar an leagan amach iomlán.