Otwarta biblioteka Python do ekstrakcji tekstu z obrazów

Wykorzystaj PyTesseract OCR do łatwego wyodrębniania tekstu drukowanego i ręcznie pisanego z obrazów.

Co to jest PyTesseract API dla Pythona?

PyTesseract to interfejs Python dla Tesseract-OCR – potężnego narzędzia open-source do ekstrakcji tekstu z obrazów. Umożliwia programistom konwersję zeskanowanych dokumentów, odręcznych notatek i tekstu na obrazach na format czytelny dla maszyn przy minimalnym wysiłku. PyTesseract jest szeroko stosowany w automatyzacji, ekstrakcji danych, digitalizacji dokumentów oraz aplikacjach sztucznej inteligencji (AI), które wymagają optycznego rozpoznawania znaków (OCR).

Ta biblioteka jest szczególnie przydatna do automatyzacji wprowadzania danych, rozpoznawania tekstu ze zrzutów ekranu i digitalizacji dokumentów drukowanych. Dzięki obsłudze wielu języków i technikom przetwarzania obrazu PyTesseract oferuje wydajne i elastyczne rozwiązanie do ekstrakcji tekstu z obrazów.

Statystyki GitHuba

Nazwa:
Język:
Gwiazdy:
Widły:
Licencja:
Repozytorium zostało ostatnio zaktualizowane o godzinie

Kluczowe funkcje PyTesseract API

Konwersja obrazów na tekst: Wydobywanie tekstu drukowanego lub odręcznego z obrazów za pomocą OCR.
Obsługa wielu języków: Rozpoznaje ponad 100 języków dzięki modelom OCR Tesseract.
Kompatybilność z przetwarzaniem wstępnym: Współpracuje z OpenCV i PIL w celu poprawy jakości obrazu przed OCR.
Ekstrakcja tekstu z plików PDF: Konwersja zeskanowanych plików PDF na tekst możliwy do wyszukiwania.
Ekstrakcja tekstu z polami ograniczającymi: Pobieranie tekstu wraz z jego lokalizacją na obrazie.
Przetwarzanie wsadowe: Efektywne wykonywanie OCR na wielu obrazach jednocześnie.
Obsługa wielu platform: Działa na Windows, macOS i Linux.
Open-source: Darmowe i wspierane przez społeczność.

Instalacja PyTesseract

Przed użyciem PyTesseract upewnij się, że Tesseract-OCR jest zainstalowany na twoim systemie.

Proces instalacji

Instalacja PyTesseract i wymaganych zależności


pip install pytesseract pillow opencv-python

Instalacja Tesseract-OCR na Windows:

Instalacja Tesseract-OCR (Windows)


# Pobierz Tesseract z:
https://github.com/UB-Mannheim/tesseract/wiki

Instalacja na Linux:

Instalacja Tesseract-OCR (Linux)


sudo apt install tesseract-ocr

Przykłady kodu do ekstrakcji tekstu za pomocą PyTesseract API

Przykład 1: Ekstrakcja tekstu z obrazu

Ekstrakcja tekstu z obrazu


import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"

image = Image.open("sample.png")
text = pytesseract.image_to_string(image)

print(text)

Przykład 2: Ekstrakcja tekstu z polami ograniczającymi

Ekstrakcja tekstu z polami ograniczającymi


import pytesseract
import cv2

image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)

for b in boxes.splitlines():
    b = b.split()
    x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
    cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)

cv2.imwrite("output.png", image)

Przykład 3: Ekstrakcja tekstu z obrazu w odcieniach szarości

Ekstrakcja tekstu z obrazu w odcieniach szarości


import pytesseract
import cv2

image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)

print(text)