Open Source Python PDF Parser Library

Δοκιμάστε αυτήν τη δωρεάν και ανοιχτού κώδικα βιβλιοθήκη Python για ανάλυση, ανάγνωση και εξαγωγή κειμένου, εικόνων, πινάκων και άλλου περιεχομένου από έγγραφα PDF.

Τι είναι το PyMuPDF;

Το PyMuPDF, γνωστό και ως Fitz, είναι μια βιβλιοθήκη Python ανοιχτού κώδικα που παρέχει ένα ολοκληρωμένο σύνολο εργαλείων για εργασία με αρχεία PDF. Με το PyMuPDF, οι χρήστες μπορούν να εκτελούν αποτελεσματικά εργασίες όπως το άνοιγμα αρχείων PDF, την εξαγωγή κειμένου, εικόνων και πινάκων, τον χειρισμό ιδιοτήτων σελίδας όπως η περιστροφή και η περικοπή, η δημιουργία νέων εγγράφων PDF και η μετατροπή σελίδων PDF σε εικόνες.

Το PyMuPDF υποστηρίζει διάφορες δυνατότητες που παρατίθενται παρακάτω:

  • Ανάγνωση εγγράφου PDF: Το PyMuPDF μπορεί να ανοίξει και να διαβάσει έγγραφα PDF, επιτρέποντάς σας να έχετε πρόσβαση στο κείμενο, τις εικόνες και άλλο περιεχόμενο μέσα σε αυτά.
  • Εξαγωγή κειμένου: Μπορείτε να εξαγάγετε κείμενο από έγγραφα PDF, συμπεριλαμβανομένου περιεχομένου κειμένου, γραμματοσειρών και πληροφοριών διάταξης.
  • Εξαγωγή εικόνας: Μπορείτε να εξαγάγετε εικόνες από έγγραφα PDF σε διάφορες μορφές, όπως JPEG ή PNG.
  • Εξαγωγή πίνακα: Μπορείτε επίσης να εξαγάγετε πίνακες από έγγραφα PDF.

Σε αυτήν την ανασκόπηση, η κύρια εστίασή μας θα είναι στα χαρακτηριστικά εξαγωγής και ανάλυσης της βιβλιοθήκης. Για μια εις βάθος αξιολόγηση των λειτουργιών διαχωρισμού, συγχώνευσης και διαχείρισης σελίδων, κάντε κλικ εδώ.

GitHub

Στατιστικά GitHub

Ονομα:
Γλώσσα:
Αστέρια:
Πιρούνια:
Αδεια:
Το αποθετήριο ενημερώθηκε τελευταία φορά στις

Ξεκινώντας με το PyMuPDF

Χρειάζεστε Python έκδοση 3.8.0 ή νεότερη για να εγκαταστήσετε και να χρησιμοποιήσετε το PyMuPDF. Επομένως, πρώτα εγκαταστήστε το Python και, στη συνέχεια, χρησιμοποιήστε τις παρακάτω εντολές για να εγκαταστήσετε το PyMuPDF στον υπολογιστή σας χρησιμοποιώντας το pip και εικονικό περιβάλλον.

Linux


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

MacOS


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Windows


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf  

Εξαγωγή κειμένου από PDF

Μπορείτε να χρησιμοποιήσετε τη βιβλιοθήκη PyMuPDF στην Python για να εξαγάγετε κείμενο από ένα έγγραφο PDF και να εκτελέσετε ανάλυση κειμένου, όπως μέτρηση λέξεων, χρησιμοποιώντας απλώς τις λειτουργίες που παρέχονται στη βιβλιοθήκη, όπως φαίνεται στον παρακάτω κώδικα:

Παραγωγή

Η παρακάτω εικόνα δείχνει το εξαγόμενο κείμενο και τον αριθμό των λέξεων στο αρχείο PDF:

Εξαγωγή εικόνων από PDF

Μπορούμε να χρησιμοποιήσουμε τη βιβλιοθήκη PyMuPDF για να εξαγάγουμε εικόνες από ένα έγγραφο PDF στην Python. Το παρακάτω απόσπασμα κώδικα ανοίγει το καθορισμένο αρχείο PDF, εξάγει εικόνες από το PDF και τις αποθηκεύει στον τρέχοντα κατάλογο εργασίας:

Παραγωγή

Ακολουθεί η εικόνα PNG που εξήχθη από το έγγραφο PDF

Εξαγωγή πινάκων από PDF

Μπορούμε επίσης να χρησιμοποιήσουμε τη βιβλιοθήκη PyMuPDF για να επεξεργαστούμε ένα έγγραφο PDF και να εξαγάγουμε πίνακες από αυτό. Ελέγξτε παρακάτω το απόσπασμα κώδικα που ανοίγει το καθορισμένο αρχείο PDF και εξάγει πίνακες από το έγγραφο PDF:

Παραγωγή

Το παρακάτω στιγμιότυπο οθόνης δείχνει τον πίνακα που εξήχθη από το έγγραφο PDF:

Εισαγωγή κειμένου σε PDF

Το παρακάτω απόσπασμα κώδικα Python δείχνει τη χρήση της βιβλιοθήκης PyMuPDF για την εισαγωγή κειμένου σε ένα αρχείο PDF και την αποθήκευση του τροποποιημένου PDF ως text.pdf:

Παραγωγή

Το κείμενο που εισάγεται χρησιμοποιώντας τον παραπάνω κώδικα επισημαίνεται στο κόκκινο πλαίσιο που δίνεται παρακάτω:

Αναγνώριση κειμένου PDF με χρήση OCR με PyMuPDF

We will perform OCR on the PDF file containing the following image:

Παραγωγή

Η παρακάτω εικόνα δείχνει το κείμενο που εξάγεται από την εικόνα που υπάρχει στο παρεχόμενο αρχείο PDF:

συμπέρασμα

Συνοπτικά, το PyMuPDF είναι ένα επαγγελματικό εργαλείο με ορισμένα σαφή πλεονεκτήματα και αδυναμίες. Είναι εξαιρετικό για εργασίες όπως το OCR και την εξαγωγή κειμένου που το καθιστά πολύτιμο για το χειρισμό κειμένου σε PDF.

Ωστόσο, δεν είναι τόσο καλό στην εξαγωγή πινάκων από αρχεία PDF, ειδικά όταν τα PDF έχουν πολύπλοκη δομή ή περισσότερο αριθμό σελίδων, κάτι που μπορεί να είναι ένα μειονέκτημα για ορισμένους χρήστες. Επίσης, μπορεί να απαιτεί πρόσθετες βιβλιοθήκες όπως αρχεία δεδομένων γλώσσας Pandas και Tesseract OCR σε ορισμένες περιπτώσεις, προσθέτοντας πολυπλοκότητα στη χρήση του. Παρά αυτούς τους περιορισμούς, το PyMuPDF παραμένει μια ισχυρή επιλογή για εργασία με κείμενο σε PDF.

Παρόμοια Προϊόντα

 Ελληνικά