Ολοκληρωμένη διαδικασία OCR με Keras και TensorFlow
Χρησιμοποιήστε το Keras-OCR για απλή αλλά ισχυρή αναγνώριση κειμένου σε Python.
Τι είναι το Keras-OCR API;
Το Keras-OCR είναι μια βιβλιοθήκη Python υψηλού επιπέδου ανοικτού κώδικα που έχει σχεδιαστεί για να απλοποιήσει τις εργασίες οπτικής αναγνώρισης χαρακτήρων (OCR) χρησιμοποιώντας τη δύναμη του Keras και του TensorFlow. Σε αντίθεση με τα παραδοσιακά συστήματα OCR που απαιτούν εκτενή ρύθμιση, το Keras-OCR προσφέρει μια ολοκληρωμένη διαδικασία με προεκπαιδευμένα μοντέλα για ανίχνευση κειμένου (χρησιμοποιώντας τον αλγόριθμο CRAFT) και αναγνώριση κειμένου (μέσω ενός μοντέλου CRNN). Αυτός ο συνδυασμός επιτρέπει στους προγραμματιστές να εξάγουν κείμενο από εικόνες, σαρωμένα έγγραφα ή ακόμη και χειρόγραφες σημειώσεις με λίγες μόνο γραμμές κώδικα.
Η βιβλιοθήκη είναι βελτιστοποιημένη για πραγματικές περιπτώσεις χρήσης, συμπεριλαμβανομένων:
- Ψηφιοποίηση εγγράφων: Μετατρέψτε έγγραφα χαρτιού ή PDF σε αναζητήσιμο κείμενο.
- Αυτοματοποιημένη εισαγωγή δεδομένων: Εξάγετε κείμενο από τιμολόγια, αποδείξεις ή φόρμες.
- Εργαλεία προσβασιμότητας: Δημιουργήστε εναλλακτικό κείμενο για εικόνες σε εφαρμογές ιστού.
- Ανάλυση κοινωνικών μέσων: Επεξεργαστείτε κείμενο ενσωματωμένο σε memes ή περιεχόμενο χρηστών.
Με ενσωματωμένη υποστήριξη για μαζική επεξεργασία και προαιρετική επιτάχυνση GPU, το Keras-OCR ισορροπεί την ευκολία χρήσης με την απόδοση, καθιστώντας το ιδανικό τόσο για δημιουργία πρωτοτύπων όσο και για παραγωγικές αναπτύξεις.
Κύρια χαρακτηριστικά του Keras-OCR
- Προεκπαιδευμένα μοντέλα: Περιλαμβάνει CRAFT (ανιχνευτής) και CRNN (αναγνωριστής) για άμεση χρήση.
- Εύκολη εγκατάσταση: Ελάχιστες εξαρτήσεις (Keras, TensorFlow, OpenCV).
- Μαζική επεξεργασία: Επεξεργαστείτε πολλαπλές εικόνες παράλληλα για αποτελεσματικότητα.
- Προσαρμοσμένη εκπαίδευση: Ρυθμίστε τα μοντέλα στα δικά σας σύνολα δεδομένων.
- Δεν απαιτείται GPU: Λειτουργεί σε CPU αλλά επιταχύνεται με GPU.
- Εξαγωγή οριοθετημένων περιοχών: Επιστρέφει κείμενο με συντεταγμένες για χωρική ανάλυση.
- Ανοικτού κώδικα: Δωρεάν, με άδεια MIT και υποστηριζόμενο από την κοινότητα.
Εγκατάσταση
Εγκαταστήστε το Keras-OCR μέσω pip (απαιτεί Python 3.6+):
Εγκατάσταση Keras-OCR
pip install keras-ocr
Για υποστήριξη GPU, βεβαιωθείτε ότι έχετε εγκαταστήσει το TensorFlow με GPU:
Εγκατάσταση TensorFlow GPU
pip install tensorflow-gpu
Παραδείγματα κώδικα
Παρακάτω παρουσιάζονται πρακτικά παραδείγματα εξαγωγής κειμένου από εικόνες χρησιμοποιώντας το Keras-OCR.
Παράδειγμα 1: Βασική ανίχνευση και αναγνώριση κειμένου
Αυτό το παράδειγμα δείχνει πώς να χρησιμοποιήσετε την προεκπαιδευμένη διαδικασία για εξαγωγή κειμένου από εικόνα:
Βασική διαδικασία OCR
import keras_ocr
pipeline = keras_ocr.pipeline.Pipeline()
images = ["receipt.jpg"]
predictions = pipeline.recognize(images)
print(predictions)
Παράδειγμα 2: Μαζική επεξεργασία
Επεξεργαστείτε πολλαπλές εικόνες ταυτόχρονα για αποδοτικότητα:
Μαζική επεξεργασία
import keras_ocr
pipeline = keras_ocr.pipeline.Pipeline()
images = ["image1.jpg", "image2.jpg", "image3.jpg"]
batch_predictions = pipeline.recognize(images)
for prediction in batch_predictions:
print(prediction)
Παράδειγμα 3: Οπτικοποίηση οριοθετημένων περιοχών
Σχεδιάστε τις ανιχνευμένες περιοχές κειμένου στην αρχική εικόνα:
Οπτικοποίηση αποτελεσμάτων
import matplotlib.pyplot as plt
import keras_ocr
pipeline = keras_ocr.pipeline.Pipeline()
image = keras_ocr.tools.read("document.jpg")
predictions = pipeline.recognize([image])
keras_ocr.tools.drawAnnotations(image, predictions[0])
plt.imshow(image)
plt.show()
Συμπέρασμα
Το Keras-OCR απλοποιεί την εξαγωγή κειμένου με την έτοιμη προς χρήση διαδικασία του, καθιστώντας το μια εξαιρετική επιλογή για προγραμματιστές που χρειάζονται γρήγορη, ακριβή OCR χωρίς πολύπλοκη ρύθμιση. Η ενσωμάτωσή του με το Keras και το TensorFlow επιτρέπει προσαρμογές, ενώ η μαζική επεξεργασία εξασφαλίζει κλιμακωσιμότητα.
Είτε δημιουργείτε σαρωτές εγγράφων, αυτοματοποιείτε εισαγωγή δεδομένων είτε αναλύετε περιεχόμενο κοινωνικών μέσων, το Keras-OCR προσφέρει μια ελαφριά αλλά ισχυρή λύση.