Λύση OCR με Deep Learning σε Python

Χρησιμοποιήστε το docTR για ακριβή εξαγωγή και αναγνώριση κειμένου από εικόνες.

Τι είναι το docTR API για Python;

Το docTR (Document Text Recognition) είναι μια βιβλιοθήκη OCR ανοιχτού κώδικα βασισμένη σε Deep Learning για την Python. Παρέχει κορυφαία αναγνώριση και ανίχνευση κειμένου για σαρωμένα έγγραφα, εικόνες και αρχεία PDF. Χρησιμοποιώντας προηγμένες αρχιτεκτονικές Deep Learning, το docTR εξασφαλίζει υψηλή ακρίβεια και αποδοτικότητα στην εξαγωγή κειμένου, διατηρώντας παράλληλα τη δομή του εγγράφου.

Το docTR χρησιμοποιείται ευρέως για ψηφιοποίηση εγγράφων, αυτοματοποιημένη εξαγωγή δεδομένων και εφαρμογές AI για αναγνώριση κειμένου. Υποστηρίζει πολλές γλώσσες, αναγνώριση χειρόγραφου κειμένου και επιτάχυνση GPU για βελτιωμένη απόδοση.

Βασικές λειτουργίες του docTR API

Προηγμένο OCR με Deep Learning: Χρησιμοποιεί νευρωνικά δίκτυα για ακριβή ανίχνευση και αναγνώριση κειμένου.
Υποστήριξη διαφόρων μορφών: Λειτουργεί άψογα με εικόνες, αρχεία PDF και σαρωμένα έγγραφα.
Αναγνώριση χειρόγραφου κειμένου: Αναγνωρίζει και εξάγει χειρόγραφο κείμενο με υψηλή ακρίβεια.
Πολυγλωσσική υποστήριξη: Αναγνωρίζει κείμενο σε διάφορες γλώσσες και γραμματοσειρές.
Βελτιστοποιημένο για ταχύτητα: Αποτελεσματική εξαγωγή κειμένου με επιτάχυνση GPU.
Διατηρεί τη δομή του εγγράφου: Διασφαλίζει ότι η μορφοποίηση παραμένει ανέπαφη κατά την αναγνώριση κειμένου.
Επεκτάσιμο και ανοιχτού κώδικα: Διατίθεται δωρεάν και υποστηρίζεται ενεργά.

Ξεκινώντας με το docTR API

Για να εγκαταστήσετε το docTR, χρησιμοποιήστε την ακόλουθη εντολή Pip:

Εγκατάσταση του docTR


pip install python-doctr

Αν θέλετε να ενεργοποιήσετε την επιτάχυνση GPU για ταχύτερη επεξεργασία, εγκαταστήστε πρόσθετες εξαρτήσεις:

Εγκατάσταση εξαρτήσεων για GPU


pip install tensorflow-gpu torch torchvision

Παραδείγματα κώδικα για εξαγωγή κειμένου με το docTR API

Τα παρακάτω παραδείγματα δείχνουν πώς να εξάγετε κείμενο από εικόνες και έγγραφα με το docTR.

docTR API για OCR

Παράδειγμα 1: Εξαγωγή κειμένου από εικόνα

Εξαγωγή κειμένου από εικόνα


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Παράδειγμα 2: Επεξεργασία PDF πολλαπλών σελίδων

Εξαγωγή κειμένου από PDF


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Παράδειγμα 3: Αναγνώριση χειρόγραφου κειμένου

Εξαγωγή χειρόγραφου κειμένου


from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents

doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Συμπέρασμα

Το docTR API είναι μια ισχυρή λύση OCR που βασίζεται σε Deep Learning, απλοποιώντας την εξαγωγή κειμένου από εικόνες, PDF και χειρόγραφα έγγραφα. Παρέχει υψηλή ακρίβεια διατηρώντας τη μορφοποίηση του εγγράφου και είναι ένα πολύτιμο εργαλείο για AI-driven επεξεργασία εγγράφων, αυτοματοποίηση και εξαγωγή δεδομένων.