Open-source Python knihovna pro extrakci textu z obrázků

Využijte PyTesseract OCR k snadné extrakci tištěného a ručně psaného textu z obrázků.

Co je PyTesseract API pro Python?

PyTesseract je Python wrapper pro Tesseract-OCR, což je výkonný open-source nástroj pro extrakci textu z obrázků. Umožňuje vývojářům snadno převádět skenované dokumenty, ručně psané poznámky a texty v obrázcích na strojově čitelný formát. PyTesseract je široce využíván v automatizaci, extrakci dat, digitalizaci dokumentů a aplikacích využívajících optické rozpoznávání znaků (OCR).

Tato knihovna je obzvláště užitečná pro automatizaci vkládání dat, rozpoznávání textu ze snímků obrazovky a digitalizaci tištěných dokumentů. Díky podpoře vícero jazyků a technik pro předzpracování obrázků poskytuje PyTesseract efektivní a flexibilní řešení pro extrakci textu.

Statistiky GitHubu

Název:
Jazyk:
hvězdy:
Vidlice:
Licence:
Úložiště bylo naposledy aktualizováno v

Statistiky GitHubu

Název:
Jazyk:
hvězdy:
Vidlice:
Licence:
Úložiště bylo naposledy aktualizováno v

Klíčové vlastnosti PyTesseract API

Převod obrázků na text: Extrahujte tištěný nebo ručně psaný text z obrázků pomocí OCR.
Podpora vícero jazyků: Podporuje více než 100 jazyků pomocí modelů Tesseract OCR.
Kompatibilita s předzpracováním: Funguje s OpenCV a PIL pro zlepšení obrázků před OCR.
Extrakce textu z PDF: Převádí skenované PDF soubory na text.
Extrakce textu s ohraničovacími boxy: Získá text včetně jeho pozice v obrázku.
Dávkové zpracování: Umožňuje efektivně provádět OCR na více obrázcích.
Podpora více platforem: Funguje na Windows, macOS a Linuxu.
Open-source: Zdarma k použití a podporovaný komunitou.

Instalace PyTesseract

Před použitím PyTesseract se ujistěte, že máte ve svém systému nainstalován Tesseract-OCR.

Instalace

Instalace PyTesseract a závislostí


pip install pytesseract pillow opencv-python

Instalace Tesseract-OCR ve Windows:

Instalace Tesseract-OCR (Windows)


# Stáhněte si Tesseract z:
https://github.com/UB-Mannheim/tesseract/wiki

Instalace na Linuxu:

Instalace Tesseract-OCR (Linux)


sudo apt install tesseract-ocr

Ukázky kódu pro extrakci textu s PyTesseract API

Příklad 1: Extrakce textu z obrázku

Extrakce textu z obrázku


import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"

image = Image.open("sample.png")
text = pytesseract.image_to_string(image)

print(text)

Příklad 2: Extrakce textu s ohraničovacími boxy

Extrakce textu s ohraničovacími boxy


import pytesseract
import cv2

image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)

for b in boxes.splitlines():
    b = b.split()
    x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
    cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)

cv2.imwrite("output.png", image)

Příklad 3: Extrakce textu z obrázku ve stupních šedi

Extrakce textu z obrázku ve stupních šedi


import pytesseract
import cv2

image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)

print(text)

Open-source Python knihovna pro extrakci textu z obrázků

Využijte PyTesseract OCR k snadné extrakci tištěného a ručně psaného textu z obrázků.

Co je PyTesseract API pro Python?

Statistiky GitHubu

Statistiky GitHubu

Klíčové vlastnosti PyTesseract API

Instalace PyTesseract

Instalace

Instalace PyTesseract a závislostí

Instalace Tesseract-OCR (Windows)

Instalace Tesseract-OCR (Linux)

Ukázky kódu pro extrakci textu s PyTesseract API

Příklad 1: Extrakce textu z obrázku

Extrakce textu z obrázku

Příklad 2: Extrakce textu s ohraničovacími boxy

Extrakce textu s ohraničovacími boxy

Příklad 3: Extrakce textu z obrázku ve stupních šedi

Extrakce textu z obrázku ve stupních šedi

Podobné Produkty