1. Products
  2.   Conversion
  3.   Python
  4.   pdfminer.six
 
  

Tiontú PDF go HTML/XML Leabharlann Python

Leabharlann Python saor in aisce agus foinse oscailte chun doiciméid PDF a thiontú go HTML & XML.

Cad é pdfminer.six?

Is leabharlann Python saor in aisce agus foinse oscailte é pdfminer.six is féidir a úsáid chun doiciméid PDF a thiontú go formáidí eile.

Seo liosta gairid dá phríomhghnéithe comhshó PDF:

  • Tiontú PDF go HTML: Tiontaigh doiciméid PDF go formáid HTML agus struchtúr agus leagan amach an doiciméid á gcaomhnú.
  • Tiontú PDF go XML: Claochlú comhaid PDF go formáid XML, gabháil leis na sonraí go léir, lena n-áirítear clónna agus gnéithe eile.
GitHub

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

Tús a chur le pdfminer.six

Teastaíonn uait Python leagan 3.6.0 nó níos airde chun pypdf a shuiteáil agus a úsáid. Mar sin, suiteáil Python ar dtús agus ansin úsáid na horduithe thíos chun pypdf a shuiteáil ar do mheaisín ag baint úsáide as pip agus timpeallacht fhíorúil.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Tiontaigh HTML go PDF

Is féidir linn doiciméad PDF a thiontú go formáid HTML trí úsáid a bhaint as feidhm extract_text_to_fp na leabharlainne pdfminer.six (le cineál aschuir socraithe go html) a sholáthraíonn an leabharlann, mar a thaispeántar sa mhír cód thíos:

Taispeánann an screenshot seo a leanas an comhad HTML a ghintear tríd an soiciméad PDF a thiontú:

Pdf a thiontú go xml

Is féidir linn doiciméad PDF a thiontú go formáid XML freisin ag baint úsáide as an bhfeidhm chéanna extract_text_to_fp (ach leis an gcineál aschuir socraithe go xml) a sholáthraíonn an leabharlann, mar a thaispeántar sa mhír cód thíos:

Taispeánann an seat scáileáin seo a leanas an t-ábhar XML arna thiontú ón doiciméad PDF:

Conclúid

Go ginearálta, tacaíonn pdfminer.six le doiciméid PDF a thiontú go formáid XML gan aon saincheisteanna ach nuair a dhéantar iarracht PDF a thiontú go HTML, bainistíonn sé ábhar an téacs a aistriú ach is minic a chuireann isteach ar an leagan amach iomlán.

Similar Products

 Gaeilge