Open Source Python PDF Parser Library

Δωρεάν βιβλιοθήκη Python ανοιχτού κώδικα για ανάλυση αρχείων PDF και εξαγωγή κειμένου με πληροφορίες μορφοποίησης.

Τι είναι το pdfminer.six;

Το Pdfminer.six είναι μια βιβλιοθήκη Python ανοιχτού κώδικα και σύνολο εργαλείων για την εξαγωγή δεδομένων από έγγραφα PDF. Μπορείτε να αναλύσετε έγγραφα PDF και να εξαγάγετε κείμενο, πίνακα περιεχομένων & περιεχόμενα με ετικέτα κ.λπ. από αρχεία PDF για ανάλυση δεδομένων.

Ακολουθεί μια σύντομη λίστα με τα χαρακτηριστικά ανάλυσης του:

Εξαγωγή κειμένου: Εξαγωγή περιεχομένου κειμένου από έγγραφα PDF, συμπεριλαμβανομένων πληροφοριών διάταξης και μορφοποίησης, όπως χρώμα κειμένου, γραμματοσειρά και τοποθεσία κ.λπ.
Εξαγωγή πληροφοριών γραμματοσειράς: Εξαγωγή πληροφοριών σχετικά με τις γραμματοσειρές που χρησιμοποιούνται σε έγγραφα PDF.

Στατιστικά GitHub

Ονομα:
Γλώσσα:
Αστέρια:
Πιρούνια:
Αδεια:
Το αποθετήριο ενημερώθηκε τελευταία φορά στις

Ξεκινώντας με το pdfminer.six

Χρειάζεστε Python έκδοση 3.6.0 ή νεότερη για να εγκαταστήσετε και να χρησιμοποιήσετε το pypdf. Επομένως, πρώτα εγκαταστήστε το Python και, στη συνέχεια, χρησιμοποιήστε τις παρακάτω εντολές για να εγκαταστήσετε το pypdf στον υπολογιστή σας χρησιμοποιώντας pip και εικονικό περιβάλλον.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Μπορούμε επίσης να εξαγάγουμε τις πληροφορίες σχετικά με τις γραμματοσειρές που χρησιμοποιούνται στο Έγγραφο PDF, όπως το όνομα της γραμματοσειράς και το μέγεθος της γραμματοσειράς, επαναλαμβάνοντας τα στοιχεία διάταξης κάθε σελίδας στο PDF. Για παράδειγμα, ελέγξτε το παρακάτω απόσπασμα κώδικα:

Παραγωγή

Το ακόλουθο στιγμιότυπο οθόνης δείχνει τις πληροφορίες γραμματοσειράς που εξάγονται από το έγγραφο PDF:

Σύναψη

Συμπερασματικά, το pdfminer.six έχει δυνατότητες εξαγωγής κειμένου και άλλων πληροφοριών από έγγραφα PDF, αλλά δεν διαθέτει λειτουργίες όπως η εξαγωγή εικόνων και πινάκων από αρχεία PDF.

Είναι σημαντικό να σημειωθεί ότι η βιβλιοθήκη pdfminer.six υποστηρίζει την εξαγωγή σελίδων PDF ως εικόνες, αλλά διαφέρει από την εξαγωγή εικόνων που είναι ενσωματωμένες στα έγγραφα PDF που δεν υποστηρίζονται από το pdfminer.six. Ωστόσο, οι προγραμματιστές μπορούν ακόμα να βασίζονται σε αυτό για την ανάλυση αρχείων PDF στην Python για την εξαγωγή κειμένου για τις ανάγκες ανάλυσης δεδομένων τους.

Open Source Python PDF Parser Library

Δωρεάν βιβλιοθήκη Python ανοιχτού κώδικα για ανάλυση αρχείων PDF και εξαγωγή κειμένου με πληροφορίες μορφοποίησης.

Τι είναι το pdfminer.six;

Στατιστικά GitHub

Ξεκινώντας με το pdfminer.six

Linux

MacOS

Windows

Εξαγωγή κειμένου από έγγραφο PDF

Παραγωγή

Εξαγωγή πληροφοριών γραμματοσειράς από έγγραφο PDF

Παραγωγή

Σύναψη

Παρόμοια Προϊόντα