Biblioteka języka Python do konwersji plików PDF do HTML/XML
Bezpłatna biblioteka Pythona o otwartym kodzie źródłowym do konwersji dokumentów PDF na HTML i XML.
Co to jest pdfminer.six?
pdfminer.six to bezpłatna biblioteka Pythona o otwartym kodzie źródłowym, której można używać do konwertowania dokumentów PDF na inne formaty.
Oto krótka lista głównych funkcji konwersji plików PDF:
- Konwersja pliku PDF na HTML: konwertuj dokumenty PDF na format HTML, zachowując strukturę i układ dokumentu.
- Konwersja plików PDF do XML: przekształcaj pliki PDF do formatu XML, przechwytując wszystkie szczegóły, w tym czcionki i inne elementy.
Pierwsze kroki z pdfminer.six
Aby zainstalować i używać pypdf, potrzebujesz języka Python w wersji 3.6.0 lub nowszej. Zatem najpierw zainstaluj Python, a następnie użyj poniższych poleceń, aby zainstalować pypdf na swoim komputerze za pomocą pip i środowisko wirtualne.
Linuksa
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
System operacyjny Mac
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Okna
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Konwertuj plik PDF na HTML
Możemy przekonwertować dokument PDF na format HTML za pomocą funkcji extract_text_to_fp biblioteki pdfminer.six (z typem wyniku ustawionym na html) udostępnionej przez bibliotekę, jak pokazano w poniższym fragmencie kodu:
Poniższy zrzut ekranu przedstawia plik HTML wygenerowany w wyniku konwersji dokumentu PDF:
Konwersja plików PDF na XML
Możemy także przekonwertować dokument PDF na format XML przy użyciu tej samej funkcji extract_text_to_fp (ale z typem wyjściowym ustawionym na xml) udostępnianej przez bibliotekę, jak pokazano w poniższym fragmencie kodu:
Poniższy zrzut ekranu przedstawia zawartość XML przekonwertowaną z dokumentu PDF:
Wniosek
Ogólnie rzecz biorąc, pdfminer.six obsługuje konwersję dokumentów PDF do formatu XML bez żadnych problemów, ale podczas próby konwersji pliku PDF do HTML udaje mu się przenieść zawartość tekstową, ale często zakłóca ogólny układ.