Βιβλιοθήκη Python μετατροπής PDF σε HTML/XML
Δωρεάν και ανοιχτού κώδικα βιβλιοθήκη Python για μετατροπή εγγράφων PDF σε HTML & XML.
Τι είναι το pdfminer.six;
Το pdfminer.six είναι μια δωρεάν και ανοιχτού κώδικα βιβλιοθήκη Python που μπορεί να χρησιμοποιηθεί για τη μετατροπή εγγράφων PDF σε άλλες μορφές.
Ακολουθεί μια σύντομη λίστα με τα κύρια χαρακτηριστικά μετατροπής PDF:
- Μετατροπή PDF σε HTML: Μετατρέψτε έγγραφα PDF σε μορφή HTML, διατηρώντας παράλληλα τη δομή και τη διάταξη του εγγράφου.
- Μετατροπή PDF σε XML: Μετατρέψτε αρχεία PDF σε μορφή XML, καταγράφοντας όλες τις λεπτομέρειες, συμπεριλαμβανομένων των γραμματοσειρών και άλλων στοιχείων.
Ξεκινώντας με το pdfminer.six
Χρειάζεστε Python έκδοση 3.6.0 ή νεότερη για να εγκαταστήσετε και να χρησιμοποιήσετε το pypdf. Επομένως, πρώτα εγκαταστήστε το Python και, στη συνέχεια, χρησιμοποιήστε τις παρακάτω εντολές για να εγκαταστήσετε το pypdf στον υπολογιστή σας χρησιμοποιώντας pip και εικονικό περιβάλλον.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Μετατροπή PDF σε HTML
Μπορούμε να μετατρέψουμε ένα έγγραφο PDF σε μορφή HTML χρησιμοποιώντας τη λειτουργία extract_text_to_fp της βιβλιοθήκης pdfminer.six (με τον τύπο εξόδου ορισμένο σε html) που παρέχεται από τη βιβλιοθήκη, όπως φαίνεται στο παρακάτω απόσπασμα κώδικα:
Παραγωγή
Το ακόλουθο στιγμιότυπο οθόνης δείχνει το αρχείο HTML που δημιουργήθηκε με τη μετατροπή του εγγράφου PDF:
Μετατροπή PDF σε XML
Μπορούμε επίσης να μετατρέψουμε ένα έγγραφο PDF σε μορφή XML χρησιμοποιώντας την ίδια λειτουργία extract_text_to_fp (αλλά με τον τύπο εξόδου ορισμένο σε xml) που παρέχεται από τη βιβλιοθήκη, όπως φαίνεται στο παρακάτω απόσπασμα κώδικα:
Παραγωγή
Το ακόλουθο στιγμιότυπο οθόνης δείχνει το περιεχόμενο XML που έχει μετατραπεί από το έγγραφο PDF:
Σύναψη
Γενικά, το pdfminer.six υποστηρίζει τη μετατροπή εγγράφων PDF σε μορφή XML χωρίς προβλήματα, αλλά όταν προσπαθεί να μετατρέψει ένα PDF σε HTML, καταφέρνει να μεταφέρει το περιεχόμενο κειμένου, αλλά συχνά διαταράσσει τη συνολική διάταξη.