Rozwiązanie OCR oparte na uczeniu głębokim w Pythonie

Wykorzystaj docTR do precyzyjnego wydobywania i rozpoznawania tekstu z obrazów.

Czym jest interfejs API docTR dla Pythona?

docTR (Document Text Recognition) to otwartoźródłowa biblioteka optycznego rozpoznawania znaków (OCR) oparta na uczeniu głębokim dla Pythona. Zapewnia zaawansowane wykrywanie i rozpoznawanie tekstu w zeskanowanych dokumentach, obrazach i plikach PDF. Wykorzystując nowoczesne architektury uczenia głębokiego, docTR zapewnia wysoką dokładność i wydajność w wydobywaniu tekstu przy zachowaniu struktury dokumentu.

docTR jest szeroko stosowany w digitalizacji dokumentów, automatycznym wydobywaniu danych oraz aplikacjach rozpoznawania tekstu opartych na sztucznej inteligencji. Obsługuje wiele języków, rozpoznawanie pisma odręcznego oraz przyspieszenie GPU dla lepszej wydajności.

Kluczowe funkcje interfejsu API docTR

Zaawansowane OCR oparte na uczeniu głębokim: Wykorzystuje sieci neuronowe do precyzyjnego wykrywania i rozpoznawania tekstu
Obsługa wielu formatów: Działa bezproblemowo z obrazami, PDF-ami i zeskanowanymi dokumentami
Rozpoznawanie pisma odręcznego: Wykrywa i wydobywa tekst odręczny z niezwykłą dokładnością
Rozpoznawanie wielojęzyczne: Obsługuje różne języki i systemy pisma
Zoptymalizowany pod kątem szybkości: Wydajne wydobywanie tekstu z wykorzystaniem przyspieszenia GPU
Zachowuje układ dokumentu: Utrzymuje strukturę podczas rozpoznawania tekstu
Skalowalny i otwartoźródłowy: Darmowy w użyciu i stale rozwijany

Rozpoczęcie pracy z interfejsem API docTR

Aby zainstalować docTR, użyj następującej komendy pip:

Zainstaluj docTR


pip install python-doctr

Jeśli chcesz włączyć przyspieszenie GPU dla szybszego przetwarzania, zainstaluj dodatkowe zależności:

Zainstaluj zależności GPU


pip install tensorflow-gpu torch torchvision

Przykłady kodu do wydobywania tekstu za pomocą interfejsu API docTR

Poniżej znajduje się kilka przykładów demonstrujących wydobywanie tekstu z obrazów i dokumentów przy użyciu docTR.

Interfejs API docTR dla OCR

Przykład 1: Wydobywanie tekstu z obrazu

Ten przykład pokazuje, jak załadować obraz, zastosować OCR za pomocą docTR i wydobyć tekst. Wydobyty tekst zawiera swoje położenie na obrazie, co jest przydatne w strukturalnym przetwarzaniu dokumentów.

Wydobądź tekst z obrazu


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Przykład 2: Przetwarzanie wielostronicowego dokumentu PDF

Jeśli potrzebujesz wydobyć tekst z pliku PDF zawierającego wiele stron, docTR upraszcza ten proces. Poniższy przykład pokazuje, jak wydajnie wydobyć tekst z każdej strony.

Wydobądź tekst z PDF


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Przykład 3: Rozpoznawanie tekstu odręcznego

docTR może również rozpoznawać tekst odręczny, co czyni go idealnym do digitalizacji odręcznych notatek, formularzy lub historycznych dokumentów. Ten przykład demonstruje wydobywanie tekstu z syntetycznego dokumentu odręcznego.

Wydobądź tekst odręczny


from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents

doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Podsumowanie

Interfejs API docTR to potężne rozwiązanie OCR oparte na uczeniu głębokim, które upraszcza wydobywanie tekstu z obrazów, PDF-ów i dokumentów odręcznych. Zapewnia wysoką dokładność przy zachowaniu struktury dokumentu, co czyni go cennym narzędziem do przetwarzania dokumentów opartego na sztucznej inteligencji, automatyzacji i wydobywania danych.

Niezależnie od tego, czy pracujesz nad digitalizacją dokumentów, automatycznym wprowadzaniem danych, czy rozpoznawaniem tekstu opartym na sztucznej inteligencji, docTR oferuje elastyczne i wydajne rozwiązanie dostosowane do Twoich potrzeb.