1. Produkty
  2.   Konwersja
  3.   Python
  4.   pdfminer.six
 
  

Biblioteka języka Python do konwersji plików PDF do HTML/XML

Bezpłatna biblioteka Pythona o otwartym kodzie źródłowym do konwersji dokumentów PDF na HTML i XML.

Co to jest pdfminer.six?

pdfminer.six to bezpłatna biblioteka Pythona o otwartym kodzie źródłowym, której można używać do konwertowania dokumentów PDF na inne formaty.

Oto krótka lista głównych funkcji konwersji plików PDF:

  • Konwersja pliku PDF na HTML: konwertuj dokumenty PDF na format HTML, zachowując strukturę i układ dokumentu.
  • Konwersja plików PDF do XML: przekształcaj pliki PDF do formatu XML, przechwytując wszystkie szczegóły, w tym czcionki i inne elementy.
GitHub

Statystyki GitHuba

Nazwa:
Język:
Gwiazdy:
Widły:
Licencja:
Repozytorium zostało ostatnio zaktualizowane o godzinie

Pierwsze kroki z pdfminer.six

Aby zainstalować i używać pypdf, potrzebujesz języka Python w wersji 3.6.0 lub nowszej. Zatem najpierw zainstaluj Python, a następnie użyj poniższych poleceń, aby zainstalować pypdf na swoim komputerze za pomocą pip i środowisko wirtualne.

Linuksa


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

System operacyjny Mac


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Okna


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Konwertuj plik PDF na HTML

Możemy przekonwertować dokument PDF na format HTML za pomocą funkcji extract_text_to_fp biblioteki pdfminer.six (z typem wyniku ustawionym na html) udostępnionej przez bibliotekę, jak pokazano w poniższym fragmencie kodu:

Poniższy zrzut ekranu przedstawia plik HTML wygenerowany w wyniku konwersji dokumentu PDF:

Konwersja plików PDF na XML

Możemy także przekonwertować dokument PDF na format XML przy użyciu tej samej funkcji extract_text_to_fp (ale z typem wyjściowym ustawionym na xml) udostępnianej przez bibliotekę, jak pokazano w poniższym fragmencie kodu:

Poniższy zrzut ekranu przedstawia zawartość XML przekonwertowaną z dokumentu PDF:

Wniosek

Ogólnie rzecz biorąc, pdfminer.six obsługuje konwersję dokumentów PDF do formatu XML bez żadnych problemów, ale podczas próby konwersji pliku PDF do HTML udaje mu się przenieść zawartość tekstową, ale często zakłóca ogólny układ.

Podobne Produkty

 Polish