Biblioteka Pythona do konwersji PDF do HTML/XML
Darmowa i otwartoźródłowa biblioteka języka Python umożliwiająca konwersję dokumentów PDF do formatu HTML i XML.
Czym jest pdfminer.six?
pdfminer.six to darmowa i otwartoźródłowa biblioteka języka Python, która może służyć do konwersji dokumentów PDF do innych formatów.
Oto krótka lista głównych funkcji konwersji plików PDF:
- Konwersja PDF do HTML: konwertuj dokumenty PDF do formatu HTML, zachowując jednocześnie strukturę i układ dokumentu.
- Konwersja PDF do XML: Przekształcaj pliki PDF do formatu XML, zachowując wszystkie szczegóły, w tym czcionki i inne elementy.
Pierwsze kroki z pdfminer.six
Potrzebujesz wersji Pythona 3.6.0 lub nowszej, aby zainstalować i używać pypdf. Więc najpierw zainstaluj Python, a następnie użyj poniższych poleceń, aby zainstalować pypdf na swoim komputerze, używając pip i środowiska wirtualnego.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
macOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Okna
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Konwertuj PDF do HTML
Możemy przekonwertować dokument PDF do formatu HTML, korzystając z funkcji extract_text_to_fp biblioteki pdfminer.six (z typem wyjściowym ustawionym na html) udostępnianej przez bibliotekę, jak pokazano w poniższym fragmencie kodu:
Wyjście
Poniższy zrzut ekranu przedstawia plik HTML wygenerowany w wyniku konwersji dokumentu PDF:
Konwersja PDF do XML
Możemy również przekonwertować dokument PDF do formatu XML, korzystając z tej samej funkcji extract_text_to_fp (ale z typem wyjściowym ustawionym na xml) dostarczanej przez bibliotekę, jak pokazano w poniższym fragmencie kodu:
Wyjście
Poniższy zrzut ekranu przedstawia zawartość XML przekonwertowaną z dokumentu PDF:
Wniosek
Ogólnie rzecz biorąc, pdfminer.six bez problemu obsługuje konwersję dokumentów PDF do formatu XML, ale w przypadku próby konwersji pliku PDF do HTML udaje mu się przenieść zawartość tekstową, ale często zaburza to ogólny układ.