Rozwiązanie OCR oparte na uczeniu głębokim w Pythonie
Wykorzystaj docTR do precyzyjnego wydobywania i rozpoznawania tekstu z obrazów.
Czym jest interfejs API docTR dla Pythona?
docTR (Document Text Recognition) to otwartoźródłowa biblioteka optycznego rozpoznawania znaków (OCR) oparta na uczeniu głębokim dla Pythona. Zapewnia zaawansowane wykrywanie i rozpoznawanie tekstu w zeskanowanych dokumentach, obrazach i plikach PDF. Wykorzystując nowoczesne architektury uczenia głębokiego, docTR zapewnia wysoką dokładność i wydajność w wydobywaniu tekstu przy zachowaniu struktury dokumentu.
docTR jest szeroko stosowany w digitalizacji dokumentów, automatycznym wydobywaniu danych oraz aplikacjach rozpoznawania tekstu opartych na sztucznej inteligencji. Obsługuje wiele języków, rozpoznawanie pisma odręcznego oraz przyspieszenie GPU dla lepszej wydajności.
Kluczowe funkcje interfejsu API docTR
- Zaawansowane OCR oparte na uczeniu głębokim: Wykorzystuje sieci neuronowe do precyzyjnego wykrywania i rozpoznawania tekstu
- Obsługa wielu formatów: Działa bezproblemowo z obrazami, PDF-ami i zeskanowanymi dokumentami
- Rozpoznawanie pisma odręcznego: Wykrywa i wydobywa tekst odręczny z niezwykłą dokładnością
- Rozpoznawanie wielojęzyczne: Obsługuje różne języki i systemy pisma
- Zoptymalizowany pod kątem szybkości: Wydajne wydobywanie tekstu z wykorzystaniem przyspieszenia GPU
- Zachowuje układ dokumentu: Utrzymuje strukturę podczas rozpoznawania tekstu
- Skalowalny i otwartoźródłowy: Darmowy w użyciu i stale rozwijany
Rozpoczęcie pracy z interfejsem API docTR
Aby zainstalować docTR, użyj następującej komendy pip:
Zainstaluj docTR
pip install python-doctr
Jeśli chcesz włączyć przyspieszenie GPU dla szybszego przetwarzania, zainstaluj dodatkowe zależności:
Zainstaluj zależności GPU
pip install tensorflow-gpu torch torchvision
Przykłady kodu do wydobywania tekstu za pomocą interfejsu API docTR
Poniżej znajduje się kilka przykładów demonstrujących wydobywanie tekstu z obrazów i dokumentów przy użyciu docTR.
Przykład 1: Wydobywanie tekstu z obrazu
Ten przykład pokazuje, jak załadować obraz, zastosować OCR za pomocą docTR i wydobyć tekst. Wydobyty tekst zawiera swoje położenie na obrazie, co jest przydatne w strukturalnym przetwarzaniu dokumentów.
Wydobądź tekst z obrazu
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
Przykład 2: Przetwarzanie wielostronicowego dokumentu PDF
Jeśli potrzebujesz wydobyć tekst z pliku PDF zawierającego wiele stron, docTR upraszcza ten proces. Poniższy przykład pokazuje, jak wydajnie wydobyć tekst z każdej strony.
Wydobądź tekst z PDF
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
Przykład 3: Rozpoznawanie tekstu odręcznego
docTR może również rozpoznawać tekst odręczny, co czyni go idealnym do digitalizacji odręcznych notatek, formularzy lub historycznych dokumentów. Ten przykład demonstruje wydobywanie tekstu z syntetycznego dokumentu odręcznego.
Wydobądź tekst odręczny
from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents
doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
Podsumowanie
Interfejs API docTR to potężne rozwiązanie OCR oparte na uczeniu głębokim, które upraszcza wydobywanie tekstu z obrazów, PDF-ów i dokumentów odręcznych. Zapewnia wysoką dokładność przy zachowaniu struktury dokumentu, co czyni go cennym narzędziem do przetwarzania dokumentów opartego na sztucznej inteligencji, automatyzacji i wydobywania danych.
Niezależnie od tego, czy pracujesz nad digitalizacją dokumentów, automatycznym wprowadzaniem danych, czy rozpoznawaniem tekstu opartym na sztucznej inteligencji, docTR oferuje elastyczne i wydajne rozwiązanie dostosowane do Twoich potrzeb.