Ολοκληρωμένη διαδικασία OCR με Keras και TensorFlow

Χρησιμοποιήστε το Keras-OCR για απλή αλλά ισχυρή αναγνώριση κειμένου σε Python.

Τι είναι το Keras-OCR API;

Το Keras-OCR είναι μια βιβλιοθήκη Python υψηλού επιπέδου ανοικτού κώδικα που έχει σχεδιαστεί για να απλοποιήσει τις εργασίες οπτικής αναγνώρισης χαρακτήρων (OCR) χρησιμοποιώντας τη δύναμη του Keras και του TensorFlow. Σε αντίθεση με τα παραδοσιακά συστήματα OCR που απαιτούν εκτενή ρύθμιση, το Keras-OCR προσφέρει μια ολοκληρωμένη διαδικασία με προεκπαιδευμένα μοντέλα για ανίχνευση κειμένου (χρησιμοποιώντας τον αλγόριθμο CRAFT) και αναγνώριση κειμένου (μέσω ενός μοντέλου CRNN). Αυτός ο συνδυασμός επιτρέπει στους προγραμματιστές να εξάγουν κείμενο από εικόνες, σαρωμένα έγγραφα ή ακόμη και χειρόγραφες σημειώσεις με λίγες μόνο γραμμές κώδικα.

Η βιβλιοθήκη είναι βελτιστοποιημένη για πραγματικές περιπτώσεις χρήσης, συμπεριλαμβανομένων:

Ψηφιοποίηση εγγράφων: Μετατρέψτε έγγραφα χαρτιού ή PDF σε αναζητήσιμο κείμενο.
Αυτοματοποιημένη εισαγωγή δεδομένων: Εξάγετε κείμενο από τιμολόγια, αποδείξεις ή φόρμες.
Εργαλεία προσβασιμότητας: Δημιουργήστε εναλλακτικό κείμενο για εικόνες σε εφαρμογές ιστού.
Ανάλυση κοινωνικών μέσων: Επεξεργαστείτε κείμενο ενσωματωμένο σε memes ή περιεχόμενο χρηστών.

Με ενσωματωμένη υποστήριξη για μαζική επεξεργασία και προαιρετική επιτάχυνση GPU, το Keras-OCR ισορροπεί την ευκολία χρήσης με την απόδοση, καθιστώντας το ιδανικό τόσο για δημιουργία πρωτοτύπων όσο και για παραγωγικές αναπτύξεις.

Στατιστικά GitHub

Ονομα:
Γλώσσα:
Αστέρια:
Πιρούνια:
Αδεια:
Το αποθετήριο ενημερώθηκε τελευταία φορά στις

Κύρια χαρακτηριστικά του Keras-OCR

Προεκπαιδευμένα μοντέλα: Περιλαμβάνει CRAFT (ανιχνευτής) και CRNN (αναγνωριστής) για άμεση χρήση.
Εύκολη εγκατάσταση: Ελάχιστες εξαρτήσεις (Keras, TensorFlow, OpenCV).
Μαζική επεξεργασία: Επεξεργαστείτε πολλαπλές εικόνες παράλληλα για αποτελεσματικότητα.
Προσαρμοσμένη εκπαίδευση: Ρυθμίστε τα μοντέλα στα δικά σας σύνολα δεδομένων.
Δεν απαιτείται GPU: Λειτουργεί σε CPU αλλά επιταχύνεται με GPU.
Εξαγωγή οριοθετημένων περιοχών: Επιστρέφει κείμενο με συντεταγμένες για χωρική ανάλυση.
Ανοικτού κώδικα: Δωρεάν, με άδεια MIT και υποστηριζόμενο από την κοινότητα.

Εγκατάσταση

Εγκαταστήστε το Keras-OCR μέσω pip (απαιτεί Python 3.6+):

Εγκατάσταση Keras-OCR


pip install keras-ocr

Για υποστήριξη GPU, βεβαιωθείτε ότι έχετε εγκαταστήσει το TensorFlow με GPU:

Εγκατάσταση TensorFlow GPU


pip install tensorflow-gpu

Παραδείγματα κώδικα

Παρακάτω παρουσιάζονται πρακτικά παραδείγματα εξαγωγής κειμένου από εικόνες χρησιμοποιώντας το Keras-OCR.

Ανίχνευση κειμένου με Keras-OCR

Παράδειγμα 1: Βασική ανίχνευση και αναγνώριση κειμένου

Αυτό το παράδειγμα δείχνει πώς να χρησιμοποιήσετε την προεκπαιδευμένη διαδικασία για εξαγωγή κειμένου από εικόνα:

Βασική διαδικασία OCR


import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
images = ["receipt.jpg"]
predictions = pipeline.recognize(images)
print(predictions)

Παράδειγμα 2: Μαζική επεξεργασία

Επεξεργαστείτε πολλαπλές εικόνες ταυτόχρονα για αποδοτικότητα:

Μαζική επεξεργασία


import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
images = ["image1.jpg", "image2.jpg", "image3.jpg"]
batch_predictions = pipeline.recognize(images)
for prediction in batch_predictions:
    print(prediction)

Παράδειγμα 3: Οπτικοποίηση οριοθετημένων περιοχών

Σχεδιάστε τις ανιχνευμένες περιοχές κειμένου στην αρχική εικόνα:

Οπτικοποίηση αποτελεσμάτων


import matplotlib.pyplot as plt
import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
image = keras_ocr.tools.read("document.jpg")
predictions = pipeline.recognize([image])
keras_ocr.tools.drawAnnotations(image, predictions[0])
plt.imshow(image)
plt.show()

Συμπέρασμα

Το Keras-OCR απλοποιεί την εξαγωγή κειμένου με την έτοιμη προς χρήση διαδικασία του, καθιστώντας το μια εξαιρετική επιλογή για προγραμματιστές που χρειάζονται γρήγορη, ακριβή OCR χωρίς πολύπλοκη ρύθμιση. Η ενσωμάτωσή του με το Keras και το TensorFlow επιτρέπει προσαρμογές, ενώ η μαζική επεξεργασία εξασφαλίζει κλιμακωσιμότητα.

Είτε δημιουργείτε σαρωτές εγγράφων, αυτοματοποιείτε εισαγωγή δεδομένων είτε αναλύετε περιεχόμενο κοινωνικών μέσων, το Keras-OCR προσφέρει μια ελαφριά αλλά ισχυρή λύση.