Open Source Python PDF Parser Library
Δωρεάν βιβλιοθήκη Python ανοιχτού κώδικα για ανάλυση PDF και εξαγωγή κειμένου με πληροφορίες μορφοποίησης.
Τι είναι το pdfminer.six;
Το Pdfminer.six είναι μια βιβλιοθήκη και σύνολο εργαλείων ανοιχτού κώδικα Python για την εξαγωγή δεδομένων από έγγραφα PDF. Μπορείτε να αναλύσετε έγγραφα PDF και να εξαγάγετε κείμενο, πίνακα περιεχομένων & περιεχόμενα με ετικέτα κ.λπ. από αρχεία PDF για ανάλυση δεδομένων.
Ακολουθεί μια σύντομη λίστα με τα χαρακτηριστικά ανάλυσης του:
- Εξαγωγή κειμένου: Εξαγωγή περιεχομένου κειμένου από έγγραφα PDF, συμπεριλαμβανομένων πληροφοριών διάταξης και μορφοποίησης όπως χρώμα κειμένου, γραμματοσειρά και τοποθεσία κ.λπ.
- Εξαγωγή πληροφοριών γραμματοσειράς: Εξαγωγή πληροφοριών σχετικά με τις γραμματοσειρές που χρησιμοποιούνται σε έγγραφα PDF.
Ξεκινώντας με το pdfminer.six
Χρειάζεστε Python έκδοση 3.6.0 ή νεότερη για να εγκαταστήσετε και να χρησιμοποιήσετε το pypdf. Επομένως, πρώτα εγκαταστήστε το Python και μετά χρησιμοποιήστε τις παρακάτω εντολές για να εγκαταστήσετε το pypdf στον υπολογιστή σας χρησιμοποιώντας pip και εικονικό περιβάλλον.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Εξαγωγή κειμένου από έγγραφο PDF
Μπορείτε να χρησιμοποιήσετε τη βιβλιοθήκη pdfminer.six στην Python για να εξαγάγετε κείμενο από ένα έγγραφο PDF χρησιμοποιώντας τη συνάρτηση exttract_text όπως φαίνεται στο παρακάτω απόσπασμα κώδικα:
Παραγωγή
Το ακόλουθο στιγμιότυπο οθόνης δείχνει το κείμενο που εξήχθη από το έγγραφο PDF:
Εξαγωγή πληροφοριών γραμματοσειράς από έγγραφο PDF
Μπορούμε επίσης να εξαγάγουμε τις πληροφορίες σχετικά με τις γραμματοσειρές που χρησιμοποιούνται στο Έγγραφο PDF, όπως το όνομα της γραμματοσειράς και το μέγεθος της γραμματοσειράς, επαναλαμβάνοντας τα στοιχεία διάταξης κάθε σελίδας στο PDF. Για παράδειγμα, ελέγξτε το παρακάτω απόσπασμα κώδικα:
Παραγωγή
Το ακόλουθο στιγμιότυπο οθόνης δείχνει τις πληροφορίες γραμματοσειράς που εξάγονται από το έγγραφο PDF:
συμπέρασμα
Συμπερασματικά, το pdfminer.six έχει δυνατότητες εξαγωγής κειμένου και άλλων πληροφοριών από έγγραφα PDF, αλλά δεν διαθέτει λειτουργίες όπως η εξαγωγή εικόνων και πινάκων από αρχεία PDF.
Είναι σημαντικό να σημειωθεί ότι η βιβλιοθήκη pdfminer.six υποστηρίζει την εξαγωγή σελίδων PDF ως εικόνες, αλλά διαφέρει από την εξαγωγή εικόνων που είναι ενσωματωμένες στα έγγραφα PDF που δεν υποστηρίζονται από το pdfminer.six. Ωστόσο, οι προγραμματιστές μπορούν ακόμα να βασίζονται σε αυτό για την ανάλυση αρχείων PDF στην Python για την εξαγωγή κειμένου για τις ανάγκες ανάλυσης δεδομένων τους.