Open-source Python knihovna pro extrakci textu z obrázků
Využijte PyTesseract OCR k snadné extrakci tištěného a ručně psaného textu z obrázků.
Co je PyTesseract API pro Python?
PyTesseract je Python wrapper pro Tesseract-OCR, což je výkonný open-source nástroj pro extrakci textu z obrázků. Umožňuje vývojářům snadno převádět skenované dokumenty, ručně psané poznámky a texty v obrázcích na strojově čitelný formát. PyTesseract je široce využíván v automatizaci, extrakci dat, digitalizaci dokumentů a aplikacích využívajících optické rozpoznávání znaků (OCR).
Tato knihovna je obzvláště užitečná pro automatizaci vkládání dat, rozpoznávání textu ze snímků obrazovky a digitalizaci tištěných dokumentů. Díky podpoře vícero jazyků a technik pro předzpracování obrázků poskytuje PyTesseract efektivní a flexibilní řešení pro extrakci textu.
Klíčové vlastnosti PyTesseract API
- Převod obrázků na text: Extrahujte tištěný nebo ručně psaný text z obrázků pomocí OCR.
- Podpora vícero jazyků: Podporuje více než 100 jazyků pomocí modelů Tesseract OCR.
- Kompatibilita s předzpracováním: Funguje s OpenCV a PIL pro zlepšení obrázků před OCR.
- Extrakce textu z PDF: Převádí skenované PDF soubory na text.
- Extrakce textu s ohraničovacími boxy: Získá text včetně jeho pozice v obrázku.
- Dávkové zpracování: Umožňuje efektivně provádět OCR na více obrázcích.
- Podpora více platforem: Funguje na Windows, macOS a Linuxu.
- Open-source: Zdarma k použití a podporovaný komunitou.
Instalace PyTesseract
Před použitím PyTesseract se ujistěte, že máte ve svém systému nainstalován Tesseract-OCR.
Instalace
Instalace PyTesseract a závislostí
pip install pytesseract pillow opencv-python
Instalace Tesseract-OCR ve Windows:
Instalace Tesseract-OCR (Windows)
# Stáhněte si Tesseract z:
https://github.com/UB-Mannheim/tesseract/wiki
Instalace na Linuxu:
Instalace Tesseract-OCR (Linux)
sudo apt install tesseract-ocr
Ukázky kódu pro extrakci textu s PyTesseract API
Příklad 1: Extrakce textu z obrázku
Extrakce textu z obrázku
import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
image = Image.open("sample.png")
text = pytesseract.image_to_string(image)
print(text)
Příklad 2: Extrakce textu s ohraničovacími boxy
Extrakce textu s ohraničovacími boxy
import pytesseract
import cv2
image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)
for b in boxes.splitlines():
b = b.split()
x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)
cv2.imwrite("output.png", image)
Příklad 3: Extrakce textu z obrázku ve stupních šedi
Extrakce textu z obrázku ve stupních šedi
import pytesseract
import cv2
image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)
print(text)