Λύση OCR με Deep Learning σε Python
Χρησιμοποιήστε το docTR για ακριβή εξαγωγή και αναγνώριση κειμένου από εικόνες.
Τι είναι το docTR API για Python;
Το docTR (Document Text Recognition) είναι μια βιβλιοθήκη OCR ανοιχτού κώδικα βασισμένη σε Deep Learning για την Python. Παρέχει κορυφαία αναγνώριση και ανίχνευση κειμένου για σαρωμένα έγγραφα, εικόνες και αρχεία PDF. Χρησιμοποιώντας προηγμένες αρχιτεκτονικές Deep Learning, το docTR εξασφαλίζει υψηλή ακρίβεια και αποδοτικότητα στην εξαγωγή κειμένου, διατηρώντας παράλληλα τη δομή του εγγράφου.
Το docTR χρησιμοποιείται ευρέως για ψηφιοποίηση εγγράφων, αυτοματοποιημένη εξαγωγή δεδομένων και εφαρμογές AI για αναγνώριση κειμένου. Υποστηρίζει πολλές γλώσσες, αναγνώριση χειρόγραφου κειμένου και επιτάχυνση GPU για βελτιωμένη απόδοση.
Βασικές λειτουργίες του docTR API
- Προηγμένο OCR με Deep Learning: Χρησιμοποιεί νευρωνικά δίκτυα για ακριβή ανίχνευση και αναγνώριση κειμένου.
- Υποστήριξη διαφόρων μορφών: Λειτουργεί άψογα με εικόνες, αρχεία PDF και σαρωμένα έγγραφα.
- Αναγνώριση χειρόγραφου κειμένου: Αναγνωρίζει και εξάγει χειρόγραφο κείμενο με υψηλή ακρίβεια.
- Πολυγλωσσική υποστήριξη: Αναγνωρίζει κείμενο σε διάφορες γλώσσες και γραμματοσειρές.
- Βελτιστοποιημένο για ταχύτητα: Αποτελεσματική εξαγωγή κειμένου με επιτάχυνση GPU.
- Διατηρεί τη δομή του εγγράφου: Διασφαλίζει ότι η μορφοποίηση παραμένει ανέπαφη κατά την αναγνώριση κειμένου.
- Επεκτάσιμο και ανοιχτού κώδικα: Διατίθεται δωρεάν και υποστηρίζεται ενεργά.
Ξεκινώντας με το docTR API
Για να εγκαταστήσετε το docTR, χρησιμοποιήστε την ακόλουθη εντολή Pip:
Εγκατάσταση του docTR
pip install python-doctr
Αν θέλετε να ενεργοποιήσετε την επιτάχυνση GPU για ταχύτερη επεξεργασία, εγκαταστήστε πρόσθετες εξαρτήσεις:
Εγκατάσταση εξαρτήσεων για GPU
pip install tensorflow-gpu torch torchvision
Παραδείγματα κώδικα για εξαγωγή κειμένου με το docTR API
Τα παρακάτω παραδείγματα δείχνουν πώς να εξάγετε κείμενο από εικόνες και έγγραφα με το docTR.
Παράδειγμα 1: Εξαγωγή κειμένου από εικόνα
Εξαγωγή κειμένου από εικόνα
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
Παράδειγμα 2: Επεξεργασία PDF πολλαπλών σελίδων
Εξαγωγή κειμένου από PDF
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
Παράδειγμα 3: Αναγνώριση χειρόγραφου κειμένου
Εξαγωγή χειρόγραφου κειμένου
from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents
doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
Συμπέρασμα
Το docTR API είναι μια ισχυρή λύση OCR που βασίζεται σε Deep Learning, απλοποιώντας την εξαγωγή κειμένου από εικόνες, PDF και χειρόγραφα έγγραφα. Παρέχει υψηλή ακρίβεια διατηρώντας τη μορφοποίηση του εγγράφου και είναι ένα πολύτιμο εργαλείο για AI-driven επεξεργασία εγγράφων, αυτοματοποίηση και εξαγωγή δεδομένων.