1. Produkty
  2.   Konwersja
  3.   Python
  4.   pdfminer.six
 
  

Biblioteka Pythona do konwersji PDF do HTML/XML

Darmowa i otwartoźródłowa biblioteka języka Python umożliwiająca konwersję dokumentów PDF do formatu HTML i XML.

Czym jest pdfminer.six?

pdfminer.six to darmowa i otwartoźródłowa biblioteka języka Python, która może służyć do konwersji dokumentów PDF do innych formatów.

Oto krótka lista głównych funkcji konwersji plików PDF:

  • Konwersja PDF do HTML: konwertuj dokumenty PDF do formatu HTML, zachowując jednocześnie strukturę i układ dokumentu.
  • Konwersja PDF do XML: Przekształcaj pliki PDF do formatu XML, zachowując wszystkie szczegóły, w tym czcionki i inne elementy.
GitHub

Statystyki GitHuba

Nazwa:
Język:
Gwiazdy:
Widły:
Licencja:
Repozytorium zostało ostatnio zaktualizowane o godzinie

Pierwsze kroki z pdfminer.six

Potrzebujesz wersji Pythona 3.6.0 lub nowszej, aby zainstalować i używać pypdf. Więc najpierw zainstaluj Python, a następnie użyj poniższych poleceń, aby zainstalować pypdf na swoim komputerze, używając pip i środowiska wirtualnego.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

macOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Okna


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Konwertuj PDF do HTML

Możemy przekonwertować dokument PDF do formatu HTML, korzystając z funkcji extract_text_to_fp biblioteki pdfminer.six (z typem wyjściowym ustawionym na html) udostępnianej przez bibliotekę, jak pokazano w poniższym fragmencie kodu:

Wyjście

Poniższy zrzut ekranu przedstawia plik HTML wygenerowany w wyniku konwersji dokumentu PDF:

Konwersja PDF do XML

Możemy również przekonwertować dokument PDF do formatu XML, korzystając z tej samej funkcji extract_text_to_fp (ale z typem wyjściowym ustawionym na xml) dostarczanej przez bibliotekę, jak pokazano w poniższym fragmencie kodu:

Wyjście

Poniższy zrzut ekranu przedstawia zawartość XML przekonwertowaną z dokumentu PDF:

Wniosek

Ogólnie rzecz biorąc, pdfminer.six bez problemu obsługuje konwersję dokumentów PDF do formatu XML, ale w przypadku próby konwersji pliku PDF do HTML udaje mu się przenieść zawartość tekstową, ale często zaburza to ogólny układ.

Podobne Produkty

 Polish